关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。
阿里巴巴千问实验室开源了最新语音模型Qwen3-TTS。
Qwen3-TTS一出来直接把语音合成的门槛拉到最低还把性能卷到了新高度。
说真的,用过不少TTS工具,但能同时做到上海话、四川话等10种语言流畅切换、3秒克隆语音、还能超低延迟实时输出的这是头一个,已经是目前最强的开源AI模型了。
开源地址:https://huggingface.co/collections/Qwen/qwen3-tts
Github:https://github.com/QwenLM/Qwen3-TTS
论文:https://github.com/QwenLM/Qwen3-TTS/blob/main/assets/Qwen3_TTS.pdf
API:https://www.alibabacloud.com/help/en/model-studio/qwen-tts-voice-design
体验地址:https://huggingface.co/spaces/Qwen/Qwen3-TTS
https://modelscope.cn/studios/Qwen/Qwen3-TTS
目前,阿里已经在huggingface和modelscope上开放了试用,有兴趣的小伙伴试试。速度非常快,算是我目前用过效率最高的语音模型了。
比如,在文本那里输入你想输出的语音内容,这里我使用了,阿里巴巴今天发布了Qwen3-TTS,这是目前最强的AI语音模型。
然后语言那里选择中文,语音描述那里,用四川话说出我输入的文本内容,速度可以慢一点给人更温柔的感觉。
咱们可以听听效果,AI味很少,语速和我描述的也很精准了。
还有一个普通话语音的版本。
下面咱唠唠Qwen3-TTS的技术创新牛在哪里。要把文字变成声音,最核心的一步就是怎么把声音给数字化,也就是所谓的语音token器。
以前很多模型容易走极端,要么太抠字眼,把声音压得只剩下干巴巴的语义,听着像机器人;要么太想把每一个音频细节都记下来,导致数据量爆炸,稍微说长一点就开始前言不搭后语。
Qwen3-TTS这次聪明就聪明在,它没在一棵树上吊死,直接搞了两套完全不同思路的token器,一个叫25Hz,一个叫12Hz,这俩就像是性格迥异的兄弟,各有各的绝活。
第一个是25Hz单码本token器,主打高保真,适合对声音质量要求高的场景,比如专业配音、有声书录制。它是在Qwen2-Audio的基础上训练出来的,分两步打磨,第一步先让它学好识别语音,第二步再让它精准还原声音细节。
为了实现长语音流畅合成,它还用到了滑动窗口技术,就像看书的时候逐页翻阅,不用一次性记住所有内容,既保证了连贯性,又不会卡顿。
第二个是12.5Hz多码本token器,主打超低延迟,适合实时沟通场景,比如语音助手、在线会议翻译。
它把语音分成了语义和声学两部分,语义负责理解内容,声学负责还原音色和韵律,就像有人负责把文字翻译成意思,有人负责把意思变成带感情的声音。
而且它不用等后面的内容,收到信息就能立刻处理,最低能做到97毫秒的首包延迟,差不多就是眨个眼的时间,对方说完话,翻译后的语音马上就能出来,完全没有等待感。
除了token器,Qwen3-TTS的双轨模型架构也很关键,一个专门处理文字信息,一个专门处理声音信息,遇到文本输入,能立刻预测出对应的语音特征,再通过专门的模块转换成流畅的声音。
针对两套不同的token器,模型也做了针对性优化,25Hz版本侧重还原声音细节,生成的语音质感更足;
12Hz版本则侧重快速响应,同时还能捕捉到声音的细微变化,保证音色稳定。尤其是多token预测模块的加入,让模型能瞬间处理多个语音特征,进一步降低延迟,这技术真的把实时合成做到了极致。
Qwen3-TTS的出色表现,离不开背后海量数据和科学的训练方法,分阶段针对性提升,从基础能力到精准优化,一步步打磨出超强实力。
训练分为预训练和后训练两大阶段,预训练阶段主要打基础,用了超过5000万小时的多语言语音数据,先让模型学会不同语言的语音规律,再用高质量数据优化音质。
最后专门训练处理长文本的能力,把最大处理长度从8192提升到32768,让模型能轻松应对10分钟以上的长语音合成,不会出现重复、遗漏的情况。
后训练阶段则主要优化细节,让模型更懂人类需求,比如通过人类反馈调整声音偏好,让合成的语音更符合大家的听觉习惯。
再通过规则奖励增强模型的稳定性;最后进行轻量化微调,让模型能快速适配特定的音色,同时保持自然度和表达力。
这种分阶段的训练方法,就像盖房子,先打好地基,再砌墙装修,最后做细节优化,确保模型既稳定又好用,不会出现顾此失彼的情况。
此外,对于喜欢做搞怪视频的朋友来说,语音克隆功能会让你很惊喜,只需要3秒的参考音频,不管是自己的声音、喜欢的明星声音,还是特定的方言口音,模型都能精准克隆,生成的语音不仅音色一致,连说话的语气、韵律都能还原,就像本人在说话一样。
Qwen3-TTS的测试性能也相当的强悍,在语音重建测试中,12Hztoken器的各项指标都排名第一,声音可懂度、质量评分、相似度都接近真人水平,尤其是相似度达到了0.95,几乎能以假乱真。
在零样本语音克隆测试中,1.7B版本的词错误率低至1.24,比很多商业模型都要出色,而且在10种语言中都保持了很高的说话人相似度。
跨语言合成测试中,表现更是惊艳,中文到韩语的合成错误率降低了66%,常用的中文到英文、英文到中文的合成,错误率也远低于同类模型,口音漂移的问题几乎不存在。
长语音合成测试中,模型能轻松生成10分钟以上的流畅语音,词错误率只有1.5左右,不会出现重复、遗漏或韵律不连贯的情况,这对于有声书、长视频配音来说,真的太重要了。
流式效率测试中,就算6个用户同时使用,12Hz版本的首包延迟也能控制在300毫秒以内,实时因子保持在0.43左右,完全不会影响使用体验,这性能真的太能打了。
想转型AI,不被时代淘汰
CAIE注册人工智能工程师认证
岗位能力 × AI工具 ×转型方向 × 场景落地 = 新AI职业价值
扫码免费领取《AI工程师入门学习指南》
热门跟贴