打开网易新闻 查看精彩图片

语音转写这个赛道,价格战打了三年,终于有人把单价砍到比一杯蜜雪冰城还便宜——每小时音频只要0.36美元。更扎眼的是,这个叫MAI-Transcribe-1的新模型,在FLEURS多语言基准测试上把Whisper、Gemini、GPT-Transcribe全超了。

Whisper守了三年的王座,被微软掀了

Whisper守了三年的王座,被微软掀了

OpenAI的Whisper-large-V3一直是开源界的标杆,Scribe v2、Gemini 3.1 Flash-Lite这些后来者也没能把误差率压得更低。微软这次没走"差不多就行"的路线,直接拿FLEURS的25语言测试结果说话——错误率(WER)做到当前最低

这个测试集的特点是"故意刁难":带口音的、背景嘈杂的、多人同时说话的音频全往里塞。微软说他们的模型专门啃了这些硬骨头,不是只在干净会议室录音里表现好看。

速度方面,比自家上一代Azure Fast快了2.5倍。翻译成人话:以前转一小时录音要等一小时,现在24分钟搞定。

0.36美元背后,微软在赌什么

0.36美元背后,微软在赌什么

按这个价格算,转写一部90分钟的电影成本不到0.6美元。Cohere和Mistral前脚刚放出同类开源模型,微软后脚就用商业定价贴脸开大——开源免费,但我比你快还比你便宜

这套路很熟悉:先靠性价比把开发者圈进Foundry和AI Playground的预览版,再往Copilot Voice和Teams里塞。语音转写从来不是终点,微软明牌要打的是MAI-Transcribe-1 + MAI-Voice-1 + 大语言模型这套组合拳,目标直指语音客服、实时会议助手这些付费场景。

一个细节:模型支持的语言数量卡在25种,不是越多越好。微软选的是覆盖Teams企业用户最集中的市场,没为了数字好看硬凑小语种。

开发者现在能摸到什么

开发者现在能摸到什么

公开预览已经开了,入口两个:Microsoft Foundry走企业级API路线,AI Playground给个人开发者试水。Teams和Copilot Voice的集成是分批推,不是全球同步。

有个坑得提:FLEURS测试成绩漂亮,不代表你的方言录音也能同样准。基准测试和真实场景总有缝隙,微软自己也没说背景噪音的容忍阈值具体是多少分贝。

Cohere和Mistral的开源方案还在那儿摆着,选商业API还是自托管,现在多了个需要重新算笔账的变量。

语音转写的单价已经被压到3毛6,下一个被拉下水的会是实时翻译,还是语音合成?