品玩3月14日讯,据 AIbase 报道,Sesame公司推出其最新语音合成模型CSM,该模型采用端到端基于Transformer的多模态学习架构,能够理解上下文信息,生成自然且富有情感的语音。

CSM模型支持实时语音生成,可处理文本和音频输入,用户还能通过调整参数控制语气、语调、节奏及情感等特性,展现高度灵活性。

目前,CSM主要针对英语训练,表现优异,但在多语言支持上仍有限制。目前其不支持中文,但期待未来扩展。