Mistral憋了4个月的语音模型，参数只有竞品的1/50

闪存猎手

2026-04-04 18:36 ·北京

Mistral今天把Voxtral-4B-TTS-2603扔进开源池，4B参数 multilingual TTS，号称"生产级速度"。这数字有意思——OpenAI的语音模型参数是它的50倍往上，Meta的Voicebox更大。

小模型跑得快是常识，但语音这块有个老毛病：参数砍多了，口音和情感跟着一起砍。Mistral的解法是把音频token压缩到每帧4个，再用滑动窗口注意力控制上下文长度。翻译成人话：它像那种会速记的秘书，只记关键词，但靠猜把句子补全。

实测数据还没出来，不过Mistral放了个对比demo。同一段英文，Voxtral-4B和ElevenLabs的Turbo v2.5并排播，前者延迟低了40%，后者音色更"像人"。「我们在质量和速度之间选择了后者」，Mistral工程师的原话。

这选择本身就很Mistral。从Mixtral 8x7B开始，这家公司就专打"够用就行"的牌，参数小、跑得动、能商用。语音赛道现在挤满了巨头——OpenAI把TTS塞进API按字符收费，ElevenLabs估值30亿美元，Adobe刚收购了语音克隆公司。

Voxtral的开源协议是Apache 2.0，意味着你可以直接塞进APP里卖，不用交份子钱。有个独立开发者在Hugging Face下面留言："终于不用给ElevenLabs充值了"，这条评论目前点赞最高。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴