微软发布三款基础AI模型挑战OpenAI与谷歌|Google|image|openai|token|人工智能|微软|知名企业|蓝屏事件|谷歌

微软人工智能研究实验室周四宣布发布三款基础AI模型，能够生成文本、语音和图像内容。

此次发布标志着微软继续推进构建自有多模态AI模型体系，与竞争对手AI实验室展开竞争，尽管该公司仍与OpenAI保持紧密合作关系。

据公司新闻稿显示，MAI-Transcribe-1能够将25种不同语言的语音转录为文本，速度比微软Azure Fast服务快2.5倍。MAI-Voice-1是一个音频生成模型，用户可以在一秒钟内生成60秒的音频内容，并支持创建定制语音。MAI-Image-2是一个视频生成模型。

MAI-Image-2最初于3月19日在MAI Playground（一个新的大语言模型测试软件）上发布。现在，三款模型都在Microsoft Foundry平台上发布，转录和语音模型也可在MAI Playground中使用。

这些模型由微软MAI超级智能团队开发，该AI研究团队由微软AI首席执行官穆斯塔法·苏莱曼领导，于2025年11月成立并宣布。

"在微软AI，我们正在构建人文主义AI。我们在创建AI模型时有独特的视角——以人类为中心，优化人们的实际沟通方式，针对实际应用进行训练，"苏莱曼在博客文章中写道。"你们将很快在Foundry平台和微软产品体验中看到我们更多的模型。"

在日益拥挤的大语言模型市场中，MAI希望这些模型的卖点是比谷歌和OpenAI的模型更便宜，公司在博客文章中写道。

MAI-Transcribe-1起价为每小时0.36美元。MAI-Voice-1起价为每100万字符22美元，MAI-Image-2文本输入起价为每100万Token 5美元，图像输出为每100万Token 33美元。

尽管发布了自有模型，苏莱曼在接受VentureBeat采访时重申了微软对与OpenAI合作关系的承诺——尽管苏莱曼告诉The Verge，最近对该合作关系的重新谈判让微软能够真正推进这项超级智能研究。

微软已向这家AI研究实验室投资超过130亿美元，并通过多年合作关系在其各种产品中托管其模型。微软在芯片方面也采取同样立场：既生产自有产品，也从外部供应商采购。

Q&A

Q1：微软新发布的三款AI模型分别有什么功能？

A：MAI-Transcribe-1能够将25种不同语言的语音转录为文本，速度比微软Azure Fast服务快2.5倍；MAI-Voice-1是音频生成模型，用户可以在一秒钟内生成60秒音频并创建定制语音；MAI-Image-2是视频生成模型。

Q2：微软这些新AI模型的价格如何？

A：MAI-Transcribe-1起价为每小时0.36美元，MAI-Voice-1起价为每100万字符22美元，MAI-Image-2文本输入起价为每100万Token 5美元，图像输出为每100万Token 33美元，定价相比谷歌和OpenAI更具竞争优势。

Q3：微软发布自有AI模型后还会继续与OpenAI合作吗？

A：会继续合作。苏莱曼重申了微软对与OpenAI合作关系的承诺，微软已向OpenAI投资超过130亿美元。最近重新谈判的合作关系让微软既能推进自有超级智能研究，又保持与OpenAI的多年合作伙伴关系。

微软发布三款基础AI模型挑战OpenAI与谷歌