在过去的三周里,作者为大家精心整理了几个近期非常亮眼的AI语音项目,每一个都各具特色,展示了语音合成技术的最新突破。首先是被称为目前最真实的语音生成模型—Sesame CSM,它能够生成极其逼真的语音效果,包含尾音和悄悄话等细腻的语言表达,尽管目前仅支持英文,但无疑是语音合成领域的一次巨大进步;接着是BiliBili推出的IndexTTS,这款文本转语音模型在中文场景下进行了优化,并在零样本克隆领域展现了卓越的表现,多项测试中已经达到了SOTA的水平;

第三个是AudioX模型,它不仅可以根据提示词和图像生成音频和音乐,还具有丰富的应用场景,与字节即梦推出的类似项目相比,AudioX无疑在创意性和技术实现上带来了更多的可能性;最后是Spark-TTS,这款模型支持从粗粒度的控制(如性别、情感风格)到细粒度的控制(如音高、语速),并且在中英文双语切换上表现自然流畅,为语音合成带来了更多的灵活性和表现力。各大项目的亮相标志着语音合成技术的进一步发展,我们可以期待这些技术带来的更多创新与改变。(链接均在文章底部,均为开源项目,开源程度不同)

01 逐一介绍

Sesame 致力于实现“语音临场感”,打造能够进行真实对话、建立信任的智能语音伙伴,而不仅仅是处理请求。通过情感智能、对话动态、情境感知和一致性人格等核心要素,希望释放语音作为终极交互界面的潜力,使语音交流更加自然、被理解和受到重视。这绝对是目前最真实的AI聊天音频模型。

IndexTTS 是一款类似 GPT 的文本转语音(TTS)模型,主要基于 XTTS 和Tortoise 构建。它能够通过拼音校正汉字发音,并利用标点符号在任意位置控制停顿。对多个模块进行了优化,包括改进说话人条件特征的表示方式,并集成 BigVGAN2 以提升音频质量。该系统经过数万小时的数据训练,达到业界领先水平,超越了 XTTS、CosyVoice2、Fish-Speech和 F5-TTS 等当前流行的 TTS 系统。

香港科技大学提出了AudioX,这是一种用于任意输入到音频和音乐生成(Anything-to-Audio and Music Generation)的统一扩散变换器(Diffusion Transformer)模型。与以往的特定领域模型不同,AudioX既能生成高质量的通用音频和音乐,同时提供灵活的自然语言控制,并能无缝处理文本、视频、图像、音乐和音频等多种模态输入。AudioX具备秒级生成电影级环境音、智能匹配视频节奏生成BGM、史诗级音乐续写等创新能力。它支持文本、视频、图像到音频转换,可根据输入自动生成匹配的音效或音乐,并能修复缺失音频、补全未完成音乐

Spark-TTS 是一款基于Qwen2.5 的高级文本转语音(TTS)系统,专为高效、灵活的语音合成而设计。它无需额外的生成模型,直接从 LLM 预测的编码重建音频,简化流程并提升效率。支持零样本语音克隆,实现跨语言和代码切换场景下的高质量语音合成,兼容中文和英语。用户可通过调整性别、音调和语速等参数定制虚拟发音人,满足多样化的语音合成需求。

https://github.com/SesameAILabs/csm
https://github.com/index-tts/index-tts
https://github.com/ZeyueT/AudioX
https://github.com/SparkAudio/Spark-TTS

欢迎交流~,带你学习AI,了解AI