语音转写这个赛道,OpenAI的Whisper跑了三年,谷歌Gemini跟在后面追,结果微软突然掏出一款MAI-Transcribe-1,在25种语言上全数碾压Whisper,22种超过谷歌,还只派了10个人。
这10个人不是坐在微软总部那种格子间里敲代码的。按负责人Mustafa Suleyman的说法,他们围坐在圆桌旁,用笔记本而非大屏显示器,"像初创公司的交易大厅",一个房间挤五六十人,从早到晚沉浸式协作。没有层层汇报,扁平到近乎扁平。
三款模型昨天上线Microsoft Foundry:转写、语音生成、图像生成。转写模型定价每小时0.36美元,语音每百万字符22美元,图像输出每百万tokens 33美元——Suleyman毫不避讳,比谷歌和OpenAI便宜是明牌。
更狠的是资源效率。Suleyman放话,达到同等转写水准,他们的GPU用量只有行业顶尖竞品的一半。换句话说,别人烧两份钱办的事,他们一份搞定。这对刚经历2008年以来最差季度的微软来说,不是技术秀,是利润结构的重新证明。
但故事真正的转折点藏在合同里。去年9月前,微软与OpenAI的协议像一道锁——禁止自研通用人工智能。Suleyman今年3月才公开承认这层束缚:"就在几周前,我们还被条款禁止独立研发超智能模型。"重新谈判后,锁开了。微软保留OpenAI模型授权至2032年,同时获准自己造轮子。
所以你现在看到的,是微软AI自给自足路线图的第一块拼图。Suleyman的KPI写得很清楚:未来5年,全部精力押注超智能,"一旦微软有需要,就能以最高效率、最低价格提供世界一流技术,并实现完全独立"。
那个10人语音团队的工作方式,或许比模型本身更值得玩味。Suleyman把它和Meta的"亿元薪酬包抢人"策略并置:一边是小而精的扁平组织,一边是堆人头、堆算力的军备竞赛。哪种路线更可持续,微软用3.8%的词错误率投了票。
目前MAI-Transcribe-1已在Copilot语音模式和Teams里跑测试,替换旧模型的意图很明显。有开发者反馈,上传一段带背景噪音的会议录音,模型对多人插话的分离准确度"比预期高出一截"——虽然官方标注的说话人分离功能,状态栏里还写着"即将推出"。
热门跟贴