TTS(文本转语音)模型是将书面文本转换为自然听觉语音的技术。这些模型通常包括三个主要组件:

  1. 文本处理:将输入的文本转化为语音单元或音素的序列。这一步骤涉及文本规范化、分词和音素转换。

  2. 声学模型:将音素序列转换为对应的声学特征。这些特征通常是频谱图或梅尔频谱图,代表声音的频率特性。

  3. 语音合成:将声学特征转化为实际的音频波形。这一步骤通常使用神经网络或波形合成技术。

今天带大家学习了解TTS,并且带大家部署一款开源模型中对中文支持最好的模型,天花板级别ChatTTS。

亚马逊BASE TTS

首先,先了解一下亚马逊的TTS模型。BASE TTS 是一个功能强大的多语言、多说话人大型文本转语音(LTTS)系统。它在约10万小时的公共领域语音数据上进行了训练,训练数据量是此前最高者 VALL-E 的两倍。

受到大型语言模型(LLM)成功经验的启发,BASE TTS 将文本转语音视为下一个 token 预测的问题。这种方法结合大量的训练数据,展现出强大的多语言和多说话人能力。

字节Seed-TTS

Seed-TTS 是一个在语音生成方面表现优异的基础模型,特别擅长语音上下文学习。在客观和主观评估中,其生成的语音在说话人相似性和自然度方面与真实人类语音相媲美。

通过微调,该模型在这些指标上的主观评分进一步提升。Seed-TTS 对情感等各种语音属性具有出色的可控性,能够为自然界的说话者生成高度表现力和多样性的语音。

  • 零样本上下文学习

  • 扬声器微调

  • 跨语种视频

中文:

 ChatTTS:开源天花板语音模型
打开网易新闻 查看更多视频
ChatTTS:开源天花板语音模型

英文:

 ChatTTS:开源天花板语音模型
打开网易新闻 查看更多视频
ChatTTS:开源天花板语音模型

当然还有很多我们不一一展示。

ChatTTS

ChatTTS首先是半开源模型,可以理解为部分阉割版,比如不支持自定义音色,部分文字读错,会有部分尖锐声音等,但目前开源模型来讲对中文的支持可以称为天花板。(有法律原因)

还要说明的是可以在线体验,虽然经常有错误,因此本地部署一个是很好用的,并且对机器的要求不高。

https://huggingface.co/spaces/Dzkaka/ChatTTS

Audio Seed含义: 用于初始化随机数生成器的种子值。设置相同的 Audio Seed 可以确保重复生成一致的语音,便于实验和调试。推荐 Seed: 3798-知性女、462-大舌头女、2424-低沉男。

Text Seed含义: 类似于 Audio Seed,在文本生成阶段用于初始化随机数生成器的种子值。

Refine Text✨建议: 勾选此选项可以对输入文本进行优化或修改,提升语音的自然度和可理解性。

Audio Temperature️含义: 控制输出的随机性。数值越高,生成的语音越可能包含意外变化;数值较低则趋向于更平稳的输出。

Top_P: 核采样策略,定义概率累积值,模型将只从这个累积概率覆盖的最可能的词中选择下一个词。

Top_K: 限制模型考虑的可能词汇数量,设置为一个具体数值,模型将只从这最可能的 K 个词中选择下一个词。

除了基本的参数设置,你还可以通过本地部署 Web UI 或 API 的方式进行更细粒度的控制,比如调整笑声、停顿和口音。以下是一些常用的控制标记:

[oral_(0-9)]: 控制口音强度

[laugh_(0-2)]: 控制笑声

[break_(0-7)]: 控制停顿时间

试试不同的组合,比如 [oral 2][laugh 0][break 4],探索更多有趣的语音效果。

在实际使用 ChatTTS 过程中,有几点需要注意:

避免使用标点和阿拉伯数字:当前版本对中文标点和阿拉伯数字支持有限,建议转换为读音友好的形式。

处理长文本:ChatTTS 目前对超过 30 秒的音频效果不佳,需要手动修复。

字母间隔:确保字母之间用空格分割,否则会被当作一个单词读取。

 ChatTTS:开源天花板语音模型
打开网易新闻 查看更多视频
ChatTTS:开源天花板语音模型

整合包

一些大神也贡献了二创整合包,支持音色抽卡、长音频生成和分角色朗读。

ChatTTS_colab

  • Colab 一键运行:无需复杂的环境配置,只需点击上方的 Colab 按钮,即可在浏览器中直接运行项目。

  • 音色抽卡功能:批量生成多个音色,并可保存自己喜欢的音色。

  • 支持生成长音频:适合生成较长的语音内容。

  • 字符处理:对数字和朗读错误的标点做了初步处理。

  • 分角色朗读功能 :支持对不同角色的文本进行分角色朗读,并支持大模型一键生产脚本。

ChatTTS webUI & API

支持中英文、数字混杂,并提供API接口。

  1. 从 Releases中下载压缩包,解压后双击 app.exe 即可使用

  2. 某些安全软件可能报毒,请退出或使用源码部署

  3. 英伟达显卡大于4G显存,并安装了CUDA11.8+后,将启用GPU加速

 ChatTTS:开源天花板语音模型
打开网易新闻 查看更多视频
ChatTTS:开源天花板语音模型

感谢关注~,带你学习AI,了解AI

欢迎交流