TPU、Maia、Trainium、MTIA：四大云厂商围堵英伟达，推理算力不再姓“黄”？|amd|gpu|nvidia|英伟达

1. 市场分裂：两条增长曲线正式分岔

AI芯片未来是否就是英伟达一家独大？

先给大家看核心数据，来自彭博情报的预测，到2033年，整个AI加速器市场总规模会冲到6040亿美元，其中通用GPU的年复合增长率是16.1%，而云厂商定制的ASIC芯片，年复合增长率达到了44.6%，是通用GPU的将近三倍。

2026年是个明确的转折点，全球AI加速器市场已经走出了完全不一样的两条增长曲线。

市场细分领域

2024 年营收

2033 年预测值

复合年均增长率（CAGR）

主要应用场景

通用型 GPU（NVIDIA）

约 1300 亿美元

约 2900 亿美元

16.1%

模型训练、灵活推理

定制 ASIC（云厂商自研）

约 180 亿美元

约 1650 亿美元

44.6%

优化推理、专用训练

其他加速器（AMD、Intel）

约 120 亿美元

约 550 亿美元

约 18%

成本敏感型训练、云端部署

AI 加速器市场整体

约 1600 亿美元

约 6040 亿美元

约 16%

全场景 AI 计算

2024-2033年AI加速器市场规模预测对比表

简单说一下，为什么会出现这样的分化？

通用GPU（主要就是英伟达）的优势，至今没人能撼动，在大模型训练领域，CUDA生态十几年积累的护城河，加上灵活可编程的特性，训练新模型还是得靠它，未来十年这个位置没人能替代，所以它保持16%的稳定增长没问题。

但现在AI算力的结构已经变了——训练一个大模型只需要做一次，最多微调几次，而把模型给用户用，也就是推理，现在已经占了所有AI算力的三分之二，这个比例还会越来越大。

推理的需求很明确：模型架构固定，对成本极度敏感，不需要那么强的通用性，刚好给定制ASIC留下了空间，拼成本拼效率，定制芯片比通用GPU强太多。

最直观的例子是Midjourney公开的数据，把推理业务从英伟达GPU迁移到谷歌TPU之后，每月算力成本从210万美元降到了70万美元，直接砍了65%。

这个数字放大到云厂商百万级的芯片部署量，一年就是几十亿上百亿美元的节省，傻子才不做。

2026年全球头部云厂商总资本开支达到了6600-6900亿美元，其中75%都砸在了AI基础设施上，每家都有600-800亿美元的AI预算，越来越多的钱，流向了自己设计的定制芯片，而不是英伟达的GPU。

2. 四大云厂商的定制芯片军火库

现在谷歌、微软、亚马逊、Meta四家，每家都拿出了成熟的量产定制芯片，我们一个一个拆解参数和战略意图。

谷歌 TPU v7/V8 "Ironwood"

谷歌做TPU已经做了七代，从2015年到现在，这次Ironwood是谷歌架构升级最大的一代，完全为超大规模推理量身打造。

它用台积电3nm工艺生产，单芯片峰值FP8算力达到4.6 PFLOPS，配192GB HBM3e内存，带宽超过7.2TB/s，整个芯片从架构开始，就是给Gemini用的Transformer架构设计的，专门给注意力计算做了硬件优化。

谷歌把9216颗Ironwood组成一个Pod，用自己的定制光网状互联解决了GPU集群常见的网络瓶颈。现在Anthropic已经部署了超过一百万颗TPU v7跑Claude的推理，这也是定制AI芯片第一次单个客户就突破百万颗的部署量。

对谷歌来说，TPU既是自己用，也开放给谷歌云的客户，直接和英伟达GPU的实例打性价比，走的是垂直整合从芯片到云的路线。

并且，Google的V8也发布了，推理和训练也分开了。

微软 Maia 200

微软的第二代定制AI加速器2026年初刚出来，攒了好几年，和AMD、台积电一起磨出来的。

同样台积电3nm工艺，单芯片封装了超过1400亿晶体管，FP4算力超过10 PFLOPS，微软说这个性能是亚马逊Trainium 3的三倍以上，内存配了216GB HBM3e，是2026年量产定制芯片里容量最大的，峰值功耗750W，刚好卡在标准液冷机架的范围内。

微软的思路很清楚，Maia 200就是给OpenAI的GPT系列模型深度定制的，从固件、编译器到算子全都是量身优化的，不是为了完全替换英伟达GPU，而是互补——训练和通用推理还是用英伟达的实例，GPT专属的推理流量全部走Maia集群，摊下来每token的成本优势会越滚越大。

亚马逊 Trainium 3

亚马逊从2019年的Inferentia开始做定制硅，到2025年re:Invent已经更到第三代Trainium 3了，路线走得很稳。

同样台积电3nm，单芯片FP8算力2.52 PFLOPS，配144GB HBM3e内存，自带专门的NeuronCore，同时支持训练和推理，硬件层面就支持跨芯片的模型并行。

亚马逊能把Trainium 3组成最多一百万颗芯片的UltraCluster，用定制的EFA互联，单节点带宽3.2Tbps，官方说同等算力下，比英伟达的实例便宜一半。这个降价幅度，对英伟达的云GPU业务来说，是目前最凶的价格压力。

而且亚马逊的Neuron SDK已经做得很成熟了，PyTorch和JAX的任务只需要改很少的代码就能跑，门槛比很多人想象的低。

Meta MTIA

Meta是四家里面推进最快的，2026年已经有三代芯片在走，全部自己用不对外卖，所以公开参数不多，目标很明确：就是满足自己30亿用户的Llama推理需求。

现在已经大规模部署的是MTIA v2，主要跑Facebook和Instagram的排序推荐推理；今年中MTIA v3会量产，专门给Llama系列生成式AI推理做的；年底v4 "Santa Barbara"会出样，这也是Meta第一款用HBM4内存的芯片，针对高带宽需求的任务。

有意思的是Meta现在的分工很明确：训练还是找英伟达买H100和B200，推理全部上自己的MTIA，其实这也是现在整个行业的普遍分工模式。

除此之外，OpenAI也和博通合作，投了大概100亿美元设计定制推理芯片，目标到2029年部署10GW的容量，对应几十万颗芯片，现在还在设计阶段，后续动静肯定不小。

3. 2026年主流AI芯片参数横评

我把现在市面上量产和即将出样的主要芯片，包括各家定制ASIC和英伟达的新卡，整理了一个对比表，大家可以直接看参数差异：

规格参数

谷歌 TPU v7 Ironwood

微软 Maia 200

亚马逊 Trainium 3

NVIDIA Vera Rubin

NVIDIA B200 (Blackwell)

制程工艺

台积电 3nm

台积电 3nm（预计）

台积电 4nm

晶体管数量

未披露

1400 亿 +

未披露

3360 亿

2080 亿

峰值算力（FP8）

4.6 PFLOPS

约 5 PFLOPS（估算）

2.52 PFLOPS

约 25 PFLOPS（估算）

4.5 PFLOPS

峰值算力（FP4）

未披露

10+ PFLOPS

未披露

50 PFLOPS

9 PFLOPS

显存

192GB HBM3e

216GB HBM3e

144GB HBM3e

288GB HBM4

192GB HBM3e

显存带宽

7.2+ TB/s

约 8 TB/s（估算）

约 5 TB/s（估算）

12+ TB/s（估算）

8 TB/s

热设计功耗（TDP）

约 500W（估算）

750W

约 600W（估算）

约 1000W（估算）

1000W

最大集群 / 机柜规模

9216 颗芯片

Azure 机架级集群

100 万颗芯片（超集群）

Vera Rubin NVL144

GB200 NVL72

互联技术

自研光互联网格

Azure 定制互联

EFA 3.2 Tbps

NVLink 6（3.6 TB/s）

NVLink 5（1.8 TB/s）

主要负载

推理

推理（GPT 专项优化）

训练 + 推理

上市 / 可用时间

量产（2025 年起）

2026 年初

2026 年中

2026 年末 / 2027 年初

量产（2025 年）

2026年主流AI加速器参数对比表

这个表里最受关注的，就是英伟达用来反击的Vera Rubin，我们单独拿出来说。

4. 英伟达的反击：Vera Rubin架构

英伟达肯定不会坐以待毙，黄仁勋在2026年GTC直接放出了Vera Rubin，规格直接拉满，就是要抢回推理的性价比优势。

Vera Rubin用台积电3nm工艺，集成了3360亿晶体管，FP4算力达到50 PFLOPS，是全球第一款量产用288GB HBM4内存的AI加速器，英伟达官方说，推理性能比上一代Blackwell B200高5倍，每生成token的成本直接降十分之九。

新的NVLink 6互联带宽翻了一倍，达到3.6TB/s，可以把144颗Vera Rubin组成一个NVL144集群，专门给超过10万亿参数的超大模型训练用。

但英伟达最大的优势，至今还是CUDA生态——现在有超过500万活跃开发者，二十年的库优化，所有主流机器学习框架原生支持，这是所有定制ASIC都比不了的。定制芯片都要做自己的编译器和SDK，不管是谷歌的XLA还是亚马逊的Neuron，只要任务偏离芯片预设的架构，用起来就会有摩擦，这是英伟达的基本盘。

5. 推理经济学，为什么定制芯片必然崛起

我们把训练和推理的核心差异拉出来，你就能明白为什么市场必然走向分裂：

指标

训练（TRAINING）

推理（INFERENCE）

占 AI 总算力比例（2026 年）

约 33%

约 67%

成本敏感度

中等（一次性投入）

极高（持续边际成本）

负载可预测性

多变

高度可预测

所需架构灵活性

低（模型结构已知）

定制 ASIC 优势

中等

显著

英伟达优势

强劲（CUDA、灵活性）

逐渐减弱（成本压力）

训练vs推理核心指标对比表

数据来源是New Street Research和摩根士丹利。

现在分析师一致预测：到2028年，英伟达在推理专用算力的市场份额，会从现在的90%以上掉到20%-30%，训练市场英伟达还是稳稳的老大，但推理这块，已经挡不住定制芯片的进攻了。

为什么定制芯片能把成本压这么低？核心三个原因：

第一是架构专业化，针对Transformer里的注意力、前馈网络、采样这些常用操作做固定功能单元，去掉了通用GPU核心不必要的开销，效率自然高。

第二是垂直整合，云厂商从芯片设计、编译器到模型部署全链条自己控制，省掉了中间环节的利润加成，成本自然降下来。

第三是规模摊薄成本，一次投几百万颗芯片给台积电，设计一次性的NRE（非重复性工程）成本，摊到每颗芯片上就没多少了。

6. 所有人都躲不开的台积电瓶颈

一个很有意思的点：2026年所有这些主流AI芯片，不管是定制ASIC还是英伟达GPU，全都是台积电3nm工艺做的，等于谷歌、微软、亚马逊、Meta、英伟达全都在抢同一个产能。

台积电2026年上半年3nm产能利用率已经是100%了，需求大概是现有供应的三倍，新厂哪怕已经破土动工，从建好到量产也要18-24个月，缺口短期填不上。

台积电 3nm 客户

芯片型号

年度预估出货量

状态

谷歌

TPU v7 Ironwood

200 万颗以上

量产中

微软

Maia 200

50 万～100 万颗

产能爬坡

亚马逊

Trainium 3

100 万颗以上

产能爬坡

苹果

M4/M5 系列

3 亿颗以上

量产中

英伟达

Vera Rubin

100 万颗以上

样品送测

博通（为 OpenAI 定制）

定制推理芯片

待定

设计阶段

AMD

MI400 系列

50 万颗以上

样品送测

台积电3nm主要客户年产能预估表

现在产能分配就是看谁下单早、下单多，谷歌和苹果作为台积电最大的3nm客户，天然就有产能优先权，英伟达虽然晶圆量很大，但现在自己的客户也要和这些直接做芯片的云厂商抢产能，情况就很微妙。

产能这块已经变成了战略资源，拿到分配比做好设计还重要，这是很多人没注意到的点。

7. 基础设施跟着变：电力、散热、组网全要改

定制芯片起来之后，数据中心的基础设施要求也跟着变了，我们一个个说。

功率密度和散热

2026年云厂商几千亿的AI capex，直接转换成了前所未有的电力需求。定制ASIC的功耗普遍比英伟达旗舰GPU低，TPU v7大概500W，Trainium 3大概600W，Maia 200是750W，而Vera Rubin和B200都是1000W。但哪怕单芯片功耗低，部署量上去之后，总功耗还是会疯涨。

现在行业已经形成了明确的散热分级：

散热方案

风冷

直液冷

浸没式液冷

热设计功耗范围

最高 500W

500W–1000W

700W 以上

机柜功率密度

15–25 kW / 机柜

40–80 kW / 机柜