一文速览最近AI音频圈进展！最逼真的音频生成模型、全面无缝拟音模型|spiderlinebreakhttps|tts|视频生成模型|音效|音频圈|音频生成

在过去的三周里，作者为大家精心整理了几个近期非常亮眼的AI语音项目，每一个都各具特色，展示了语音合成技术的最新突破。首先是被称为目前最真实的语音生成模型—Sesame CSM，它能够生成极其逼真的语音效果，包含尾音和悄悄话等细腻的语言表达，尽管目前仅支持英文，但无疑是语音合成领域的一次巨大进步；接着是BiliBili推出的IndexTTS，这款文本转语音模型在中文场景下进行了优化，并在零样本克隆领域展现了卓越的表现，多项测试中已经达到了SOTA的水平；

第三个是AudioX模型，它不仅可以根据提示词和图像生成音频和音乐，还具有丰富的应用场景，与字节即梦推出的类似项目相比，AudioX无疑在创意性和技术实现上带来了更多的可能性；最后是Spark-TTS，这款模型支持从粗粒度的控制（如性别、情感风格）到细粒度的控制（如音高、语速），并且在中英文双语切换上表现自然流畅，为语音合成带来了更多的灵活性和表现力。各大项目的亮相标志着语音合成技术的进一步发展，我们可以期待这些技术带来的更多创新与改变。（链接均在文章底部，均为开源项目，开源程度不同）

01 逐一介绍

Sesame 致力于实现“语音临场感”，打造能够进行真实对话、建立信任的智能语音伙伴，而不仅仅是处理请求。通过情感智能、对话动态、情境感知和一致性人格等核心要素，希望释放语音作为终极交互界面的潜力，使语音交流更加自然、被理解和受到重视。这绝对是目前最真实的AI聊天音频模型。

IndexTTS 是一款类似 GPT 的文本转语音（TTS）模型，主要基于 XTTS 和Tortoise 构建。它能够通过拼音校正汉字发音，并利用标点符号在任意位置控制停顿。对多个模块进行了优化，包括改进说话人条件特征的表示方式，并集成 BigVGAN2 以提升音频质量。该系统经过数万小时的数据训练，达到业界领先水平，超越了 XTTS、CosyVoice2、Fish-Speech和 F5-TTS 等当前流行的 TTS 系统。

香港科技大学提出了AudioX，这是一种用于任意输入到音频和音乐生成（Anything-to-Audio and Music Generation）的统一扩散变换器（Diffusion Transformer）模型。与以往的特定领域模型不同，AudioX既能生成高质量的通用音频和音乐，同时提供灵活的自然语言控制，并能无缝处理文本、视频、图像、音乐和音频等多种模态输入。AudioX具备秒级生成电影级环境音、智能匹配视频节奏生成BGM、史诗级音乐续写等创新能力。它支持文本、视频、图像到音频转换，可根据输入自动生成匹配的音效或音乐，并能修复缺失音频、补全未完成音乐。

Spark-TTS 是一款基于Qwen2.5 的高级文本转语音（TTS）系统，专为高效、灵活的语音合成而设计。它无需额外的生成模型，直接从 LLM 预测的编码重建音频，简化流程并提升效率。支持零样本语音克隆，实现跨语言和代码切换场景下的高质量语音合成，兼容中文和英语。用户可通过调整性别、音调和语速等参数定制虚拟发音人，满足多样化的语音合成需求。

https://github.com/SesameAILabs/csm
https://github.com/index-tts/index-tts
https://github.com/ZeyueT/AudioX
https://github.com/SparkAudio/Spark-TTS

欢迎交流~，带你学习AI，了解AI

一文速览最近AI音频圈进展！最逼真的音频生成模型、全面无缝拟音模型

热搜

热门跟贴

热搜

热门跟贴

相关推荐

看看AI进化的速度！一张图片就能搞定自带特效和音效的广告短片

“参考生”之王回归：Vidu Q3持续进化，剧张力拉满｜甲子光年

不止是音响，更是藏在客厅里的艺术平衡术｜B&O Beosound Balance

复刻、长语音、对话、指令、音效全覆盖！1

华为天才少年创业，全球首个虚实融合的实时交互视频模型来了

“常州北站”被改为“常洲北站”？官方回应

120W是“型号”不是功率？误导消费者要付出代价

Snapchat提出Canvas-to-Image：一张画布集成 ID、姿态与布局

赵文芳任国家铁路局副局长，安路生卸任

台官员硬拗金门水资源多元 陈玉珍：金门80%的水来自大陆

广东一面包店发出闭店通知，顾客：“孩子得知后当场大哭!”街坊纷纷挽留，多方帮助后面包店重获“新生”

暴雪把Switch 2当亲儿子养，老玩家看完帧数直接沉默

扫码缴费咋成了“闯关游戏”？记者走访发现：停车场、充电桩、快递柜也布满“广告陷阱”

“布什”号航空母舰绕道非洲前往中东

文章新开面馆口味评分3.6分，网友：30多元一碗面有点贵

梦龙广告被部分网友吐槽“不适”，冲上热搜

俄外长已抵达中国进行访问

美国“封锁令”正式生效！一文读懂：霍尔木兹最新形势究竟如何？

高盛怕了！Claude Mythos全球首个攻破企业网络，奥本海默时刻来了

湖北10条高速同步“四改八”：总里程近千公里，投资超1300亿元

台官员硬拗金门水资源多元陈玉珍：金门80%的水来自大陆