MaskGCT——开源文本转语音模型，可模仿任何人说话声音|maskgct|tts|声学|音素

前期介绍过很多语音合成的模型，比如ChatTTS，微软语音合成大模型，字节跳动自家发布的语音合成模型Seed-TTS。其模型随着技术的不断发展，模型说话的声音也越来越像人类，虽然 seed-TTS 可以进行语音合成等功能，但是其模型并没有开源，本期介绍的MaskGCT文本转语音模型是一个开源的模型，不仅可以生成语音，还可以模仿任何人说话的声音，且可以进行语气的转换。

大规模的文本转语音（TTS）系统通常被划分为自回归系统与非自回归系统。自回归系统虽隐式地对时长予以建模，然而在鲁棒性层面呈现出一定的短板，且时长的可控性匮乏。非自回归系统于训练期间，需要文本和语音之间的显性对齐信息，并对语言单位（诸如音素）的时长进行预测，此举或许会折损其自然度。而 Masked Generative Code Transformer（MaskGCT），此乃一个全然非自回归的 TTS 模型，它既无需文本和语音监督之间的显性对齐信息，也无需音素级时长预测。

MaskGCT 属于一个两阶段模型：在第一阶段，该模型凭借文本预测从语音自监督学习（SSL）模型中萃取的语义标记；在第二阶段，模型对以这些语义标记为条件的声学标记予以预测。MaskGCT 遵循掩码和预测的学习范式。在训练进程中，MaskGCT 会依据给定的条件和提示，学习预测被遮蔽的语义或声学标记。在推理过程里，该模型能够以并行的方式生成指定长度的标记。针对 10 万小时的自然语音展开的实验表明，MaskGCT 在质量、相似度以及可理解性等方面，皆胜于当下最为先进的零样本 TTS 系统。

MaskGCT 由四个主要部分组成：

（1）语音语义表示编解码器将语音转换为语义标记；

（2）文本到语义模型使用文本预测语义标记并提示语义标记；

（3）语义到声学模型根据语义标记预测声学标记；

（4）语音声学编解码器根据声学标记重建语音波形。

MaskGCT模型根据用户提供的声音与文本，识别输入数据的语音语调，通过输入其他的文本，合成具有相同语音语调的声音。

在很多自媒体创作中，很多配音都是合成的声音，若是自己拿稿进行配音，不仅需要重复调整，还需要花费大量的时间与精力，而使用MaskGCT模型，就没有这个担忧，直接让模型学习下自己的语音语调，然后就可以一次性输入自己的文案，让模型进行配音了，这样就大大节省了人工配音的时间成本（更不需要一个专业的录音设备）

MaskGCT模型不仅可以模仿说话者的声音，也可以根据需要调整说话人的情绪，比如高兴的，生气等，这样就可以输入MaskGCT模型多段文案，然后控制每段文案的情绪，就可以得到完美的配音了。

当然MaskGCT模型也可以针对原始语音进行调整修改，可以直接修改原始语音的文案，让MaskGCT模型生成其他的语音。更多使用场景可以到MaskGCT模型 GitHub 上面查看。而官方也放出了在线体验地址，可以进行在线体验。

https://maskgct.github.io/https://github.com/open-mmlab/Amphion/blob/main/models/tts/maskgct/README.mdhttps://voice.funnycp.com/

MaskGCT——开源文本转语音模型，可模仿任何人说话声音

热搜

热门跟贴

热搜

热门跟贴

相关推荐

中文就是恐怖的信息熵！对比世界各国语言文字，简直强的让人畏惧

这就是语音手机的好处

苹果正在开发 "LLM Siri"以与ChatGPT竞争 主打“做很多有用的事情”

梨花教育退费配音中如何进行方言和口音模仿

中国方言自带加密效果啊

张弛声音变现退费声音技术如何重塑人类生活

平时多刷刷视频还是有用的

声音能传过去就尴尬了

中文已经失去加密效果了，遇到老外请慎用！评论区网友分享太真实

两个月的小话痨，我讲一句她讲十句，小奶音治愈一切！

这个很简单啊，不就是哇哇哇吗？我也会

这为口吃的！被拿捏的！

牛人用蜡烛实验，普通人真的不敢相信，原来声音是有形状的！

合不合适我不管，我就喜欢这一款配音

干净清澈的声音，这才是抖音最初的样子，循环了很多遍

孩子模仿能力很强，许多事不要当着孩子面做，全是经验之谈！

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

首个可保留情感的音频LLM！Meta重磅开源7B-Spirit LM，一网打尽「音频+文本」多模态任务

DIY计算器装ChatGPT操作系统！终极作弊神器，代码已开源

苹果正在开发 "LLM Siri"以与ChatGPT竞争主打“做很多有用的事情”