微软终于发布了第二代定制AI芯片Maia 200。这距离它上一代AI芯片已经过去了两年多,迭代节奏既慢于英伟达不断加速的产品周期,也落后于谷歌TPU的代际推进。但它已经能够让微软站稳,参与这场大规模云厂商之间的“军备竞赛”。作为后来者,它更直接地围绕当前推理负载的真实约束展开。
AI已经进入推理时代,不同应用场景需要针对不同约束条件优化。这正是过去一年英伟达 GPU 叙事出现松动的底层原因。但到了2026年,竞争的重心进一步下沉至超大规模云厂商定制 AI 芯片之间的正面较量。谁能在给定成本、延迟和能耗水平下,提供更高的实际性能,谁才有望赢得这场竞争。
去年,TPU最先改变了AI竞争。谷歌Gemini 3与第七代TPU Ironwood的组合,开始对主要基于英伟达GPU的OpenAI,形成了总拥有成本上的长期竞争优势。到年底,亚马逊第三代Trainium发布,让Anthropic有底气不断推出更强大的智能体应用。在这场竞赛中,无论是微软还是OpenAI,尽管关系日益微妙,但仍然谁都离不开谁。
2025/12/1 完整阅读 >
在官方博客中,微软将Maia 200描述为“目前所有超大规模数据中心中性能最高的自研芯片”。按照微软给出的测算,如果以Maia 200替换其现有AI推理基础设施,那么在相同投入下,每1美元可获得约30%的额外性能,相当于将OpenAI最新GPT-5.2模型的单位推理成本降低近25%。
具体而言,Maia 200采用台积电3nm工艺制造,拥有超过1400亿颗晶体管。每块芯片在FP4精度下,可实现超过10 PFLOPS的算力,是亚马逊Trainium 3的近4倍,FP8性能超越了谷歌第七代TPU。它搭载了216GB的HBM3e,内存带宽7 TB/s,纵向扩展带宽高达2.8 TB/s。
事实上,如果仅从纸面指标来看,Maia 200的多项性能参数,已经不在英伟达的B200之下,甚至在部分精度推理场景下,可以与最新的B300相提并论。当然,下半年英伟达Vera Rubin架构的GPU,将再次抬高这场竞赛的准入门槛。
不过,在超大规模系统扩展能力上,微软仍然有所取舍。Maia 200支持最多6,144颗AI芯片纵向互联,规模略低于谷歌Ironwood所能支持的9,216颗芯片,超节点层面的峰值算力也因此稍逊一筹。
在大规模推理时代,能效正在上升为另一个决定性竞争要素。如果说,每一美元可获得的算力决定了“token工厂”的资本开支,那么,每一瓦所能输出的性能则直接影响其长期运营成本。在微软披露的典型推理工况下,Maia 200在750W的TDP(热设计功耗)约束内,仍能释放出极高的有效算力,其单位功耗性能明显优于谷歌、亚马逊与英伟达当前一代的AI芯片。
为了以更低的成本持续生成token,微软在Maia 200上做出了一系列高度指向性的架构取舍。它或部分代表了未来定制AI芯片的趋势。
其中最核心的一点,是它从底层开始就为低精度执行而原生设计。通过降低数值精度,不仅可以显著提升推理吞吐、压缩内存占用,还能同步改善每瓦性能。相比之下,谷歌第七代 TPU 并未公开其在FP4精度下的算力表现,而亚马逊第三代Trainium在FP4下的算力,也并未相较FP8出现提升。
尽管市场普遍认为,谷歌第七代TPU在单位成本算力上已对英伟达Blackwell架构形成压力,但这种优势并非在所有推理阶段都同样成立。有分析显示,在Prefill阶段,英伟达凭借对FP4精度的支持,使GB200/GB300相较TPU v7 External仍保有约35%–50%的成本优势;而在Decode阶段,双方的实际性价比差距也没有那样悬殊。
这也从侧面解释了英伟达近几代架构的演进逻辑。Blackwell为超低精度推理系统性地铺平了道路,原生支持FP4、MXFP4与NVFP4等多种4位浮点格式,为模型在更低精度下运行预留了充分空间。在此基础上,相较GB200,GB300的主要性能增量几乎全部集中在FP4吞吐率与低精度执行效率上;而随后的Vera Rubin架构,则继续放大FP4在整体算力结构中的权重。
但在推理场景中,决定系统上限的,往往并不只是算力本身,而是数据如何被存储、如何被访问,以及能够被多近地反复使用。正如“HBM 之父”金正浩(Jung Ho Kim)所形容的那样,AI系统更像是一块奶油蛋糕,真正决定品质与价值的,是内存这层“奶油”。
正是在这样的背景下,Maia 200的设计开始围绕大体量片上SRAM做文章。微软并没有继续单纯押注更高带宽的HBM,而是重新设计了内存层次结构,将大量存储能力前移到计算单元附近。Maia 200搭载了272 MB的片上SRAM,不仅高于亚马逊Trainium 3的256 MB,也超过了以速度著称的Groq LPU的230 MB。
这种思路并不陌生。如果HBM代表着“更大的带宽”,那么通过SRAM层面的创新,实现“更近的距离”。某种意义上,这也是英伟达近年来重新审视推理架构的重要线索。去年底,黄仁勋砸了200亿美元,把Groq的核心团队收编回家。
2025/12/25 完整阅读 >
片上SRAM之于Maia 200的意义,并不只在于容量本身,更在于它重新定义了数据在推理芯片中的流动方式。与依赖硬件缓存自动调度不同,Maia 200将片上SRAM划分为Tile级与Cluster级两个层次,并交由软件进行显式管理。这意味着,哪些数据该被固定在计算单元附近、哪些数据需要在不同计算阶段之间流转,成为可被精确规划的数据路径选择。大量原本必须往返HBM的数据,驻留在片上,降低了对更高延迟内存层级的依赖。这使得即便在模型结构愈发复杂、序列长度不断拉长的情况下,计算单元仍能维持较高的利用率和稳定的吞吐表现,也降低了能耗。
围绕这一重新设计的内存层次结构,Maia 200构建了一套高度面向推理的数据流架构。与之配合的,是分层设计的专用DMA(Direct Memory Access)引擎。其中,Tile级DMA负责计算单元与本地SRAM之间的细粒度搬运,Cluster级DMA调度片上不同计算单元与HBM之间的数据流动。更关键的是,这套DMA体系并非被动响应计算请求,而是通过提前调度与传输重叠,将数据在计算单元真正需要之前送达,从而最大限度地减少空转。
对于微软而言,Maia 200并非单纯的硬件升级路径。去年底,微软CEO萨蒂亚·纳德拉(Satya Nadella)在一次访谈中,提及微软的计划是在自己的MAI模型和芯片之间建立协同设计的闭环。
目前,Maia 200已率先部署在微软位于爱荷华州的数据中心,并开始进入实际生产环境。MicrosoftAI的CEO穆斯塔法·苏莱曼(Mustafa Suleyman)透露,微软已经在使用Maia 200研发自己的前沿大模型。同时,下一代Maia 300的设计工作也已启动。
在这个意义上,Maia系列并不是为了“对标英伟达”而存在,而是被定位为“一家拥有统一平台逻辑的公司”中的关键拼图。
热门跟贴