ChatTTS：开源天花板语音模型

带你学AI

2024-06-07 09:16 ·广东

TTS（文本转语音）模型是将书面文本转换为自然听觉语音的技术。这些模型通常包括三个主要组件：

文本处理：将输入的文本转化为语音单元或音素的序列。这一步骤涉及文本规范化、分词和音素转换。
声学模型：将音素序列转换为对应的声学特征。这些特征通常是频谱图或梅尔频谱图，代表声音的频率特性。
语音合成：将声学特征转化为实际的音频波形。这一步骤通常使用神经网络或波形合成技术。

今天带大家学习了解TTS，并且带大家部署一款开源模型中对中文支持最好的模型，天花板级别ChatTTS。

亚马逊BASE TTS

首先，先了解一下亚马逊的TTS模型。BASE TTS 是一个功能强大的多语言、多说话人大型文本转语音（LTTS）系统。它在约10万小时的公共领域语音数据上进行了训练，训练数据量是此前最高者 VALL-E 的两倍。

受到大型语言模型（LLM）成功经验的启发，BASE TTS 将文本转语音视为下一个 token 预测的问题。这种方法结合大量的训练数据，展现出强大的多语言和多说话人能力。

字节Seed-TTS

Seed-TTS 是一个在语音生成方面表现优异的基础模型，特别擅长语音上下文学习。在客观和主观评估中，其生成的语音在说话人相似性和自然度方面与真实人类语音相媲美。

通过微调，该模型在这些指标上的主观评分进一步提升。Seed-TTS 对情感等各种语音属性具有出色的可控性，能够为自然界的说话者生成高度表现力和多样性的语音。

零样本上下文学习

扬声器微调

跨语种视频

中文：

ChatTTS：开源天花板语音模型

英文：

ChatTTS：开源天花板语音模型

当然还有很多我们不一一展示。

ChatTTS

ChatTTS首先是半开源模型，可以理解为部分阉割版，比如不支持自定义音色，部分文字读错，会有部分尖锐声音等，但目前开源模型来讲对中文的支持可以称为天花板。（有法律原因）

还要说明的是可以在线体验，虽然经常有错误，因此本地部署一个是很好用的，并且对机器的要求不高。

https://huggingface.co/spaces/Dzkaka/ChatTTS

Audio Seed含义: 用于初始化随机数生成器的种子值。设置相同的 Audio Seed 可以确保重复生成一致的语音，便于实验和调试。推荐 Seed: 3798-知性女、462-大舌头女、2424-低沉男。

Text Seed含义: 类似于 Audio Seed，在文本生成阶段用于初始化随机数生成器的种子值。

Refine Text✨建议: 勾选此选项可以对输入文本进行优化或修改，提升语音的自然度和可理解性。

Audio Temperature️含义: 控制输出的随机性。数值越高，生成的语音越可能包含意外变化；数值较低则趋向于更平稳的输出。

Top_P: 核采样策略，定义概率累积值，模型将只从这个累积概率覆盖的最可能的词中选择下一个词。

Top_K: 限制模型考虑的可能词汇数量，设置为一个具体数值，模型将只从这最可能的 K 个词中选择下一个词。

除了基本的参数设置，你还可以通过本地部署 Web UI 或 API 的方式进行更细粒度的控制，比如调整笑声、停顿和口音。以下是一些常用的控制标记：

[oral_(0-9)]: 控制口音强度

[laugh_(0-2)]: 控制笑声

[break_(0-7)]: 控制停顿时间

试试不同的组合，比如 [oral 2][laugh 0][break 4]，探索更多有趣的语音效果。

在实际使用 ChatTTS 过程中，有几点需要注意：

避免使用标点和阿拉伯数字：当前版本对中文标点和阿拉伯数字支持有限，建议转换为读音友好的形式。

处理长文本：ChatTTS 目前对超过 30 秒的音频效果不佳，需要手动修复。

字母间隔：确保字母之间用空格分割，否则会被当作一个单词读取。

ChatTTS：开源天花板语音模型

整合包

一些大神也贡献了二创整合包，支持音色抽卡、长音频生成和分角色朗读。

ChatTTS_colab

Colab 一键运行：无需复杂的环境配置，只需点击上方的 Colab 按钮，即可在浏览器中直接运行项目。
音色抽卡功能：批量生成多个音色，并可保存自己喜欢的音色。
支持生成长音频：适合生成较长的语音内容。
字符处理：对数字和朗读错误的标点做了初步处理。
分角色朗读功能：支持对不同角色的文本进行分角色朗读，并支持大模型一键生产脚本。

ChatTTS webUI & API

支持中英文、数字混杂，并提供API接口。

从 Releases中下载压缩包，解压后双击 app.exe 即可使用
某些安全软件可能报毒，请退出或使用源码部署
英伟达显卡大于4G显存，并安装了CUDA11.8+后，将启用GPU加速

ChatTTS：开源天花板语音模型

感谢关注～，带你学习AI，了解AI

欢迎交流

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴