微软10人小团队干出转写第一，OpenAI看了沉默|openai|人工智能|初创公司|微软|知名企业|谷歌|转写

语音转写这个赛道，OpenAI的Whisper跑了三年，谷歌Gemini跟在后面追，结果微软突然掏出一款MAI-Transcribe-1，在25种语言上全数碾压Whisper，22种超过谷歌，还只派了10个人。

这10个人不是坐在微软总部那种格子间里敲代码的。按负责人Mustafa Suleyman的说法，他们围坐在圆桌旁，用笔记本而非大屏显示器，"像初创公司的交易大厅"，一个房间挤五六十人，从早到晚沉浸式协作。没有层层汇报，扁平到近乎扁平。

三款模型昨天上线Microsoft Foundry：转写、语音生成、图像生成。转写模型定价每小时0.36美元，语音每百万字符22美元，图像输出每百万tokens 33美元——Suleyman毫不避讳，比谷歌和OpenAI便宜是明牌。

更狠的是资源效率。Suleyman放话，达到同等转写水准，他们的GPU用量只有行业顶尖竞品的一半。换句话说，别人烧两份钱办的事，他们一份搞定。这对刚经历2008年以来最差季度的微软来说，不是技术秀，是利润结构的重新证明。

但故事真正的转折点藏在合同里。去年9月前，微软与OpenAI的协议像一道锁——禁止自研通用人工智能。Suleyman今年3月才公开承认这层束缚："就在几周前，我们还被条款禁止独立研发超智能模型。"重新谈判后，锁开了。微软保留OpenAI模型授权至2032年，同时获准自己造轮子。

所以你现在看到的，是微软AI自给自足路线图的第一块拼图。Suleyman的KPI写得很清楚：未来5年，全部精力押注超智能，"一旦微软有需要，就能以最高效率、最低价格提供世界一流技术，并实现完全独立"。

那个10人语音团队的工作方式，或许比模型本身更值得玩味。Suleyman把它和Meta的"亿元薪酬包抢人"策略并置：一边是小而精的扁平组织，一边是堆人头、堆算力的军备竞赛。哪种路线更可持续，微软用3.8%的词错误率投了票。

目前MAI-Transcribe-1已在Copilot语音模式和Teams里跑测试，替换旧模型的意图很明显。有开发者反馈，上传一段带背景噪音的会议录音，模型对多人插话的分离准确度"比预期高出一截"——虽然官方标注的说话人分离功能，状态栏里还写着"即将推出"。

微软10人小团队干出转写第一，OpenAI看了沉默