打开网易新闻 查看精彩图片
Mistral今天把Voxtral-4B-TTS-2603扔进开源池,4B参数 multilingual TTS,号称"生产级速度"。这数字有意思——OpenAI的语音模型参数是它的50倍往上,Meta的Voicebox更大。
小模型跑得快是常识,但语音这块有个老毛病:参数砍多了,口音和情感跟着一起砍。Mistral的解法是把音频token压缩到每帧4个,再用滑动窗口注意力控制上下文长度。翻译成人话:它像那种会速记的秘书,只记关键词,但靠猜把句子补全。
实测数据还没出来,不过Mistral放了个对比demo。同一段英文,Voxtral-4B和ElevenLabs的Turbo v2.5并排播,前者延迟低了40%,后者音色更"像人"。「我们在质量和速度之间选择了后者」,Mistral工程师的原话。
这选择本身就很Mistral。从Mixtral 8x7B开始,这家公司就专打"够用就行"的牌,参数小、跑得动、能商用。语音赛道现在挤满了巨头——OpenAI把TTS塞进API按字符收费,ElevenLabs估值30亿美元,Adobe刚收购了语音克隆公司。
Voxtral的开源协议是Apache 2.0,意味着你可以直接塞进APP里卖,不用交份子钱。有个独立开发者在Hugging Face下面留言:"终于不用给ElevenLabs充值了",这条评论目前点赞最高。
热门跟贴