1. 市场分裂:两条增长曲线正式分岔
AI芯片未来是否就是英伟达一家独大?
先给大家看核心数据,来自彭博情报的预测,到2033年,整个AI加速器市场总规模会冲到6040亿美元,其中通用GPU的年复合增长率是16.1%,而云厂商定制的ASIC芯片,年复合增长率达到了44.6%,是通用GPU的将近三倍。
2026年是个明确的转折点,全球AI加速器市场已经走出了完全不一样的两条增长曲线。
市场细分领域
2024 年营收
2033 年预测值
复合年均增长率(CAGR)
主要应用场景
通用型 GPU(NVIDIA)
约 1300 亿美元
约 2900 亿美元
16.1%
模型训练、灵活推理
定制 ASIC(云厂商自研)
约 180 亿美元
约 1650 亿美元
44.6%
优化推理、专用训练
其他加速器(AMD、Intel)
约 120 亿美元
约 550 亿美元
约 18%
成本敏感型训练、云端部署
AI 加速器市场整体
约 1600 亿美元
约 6040 亿美元
约 16%
全场景 AI 计算
2024-2033年AI加速器市场规模预测对比表
简单说一下,为什么会出现这样的分化?
通用GPU(主要就是英伟达)的优势,至今没人能撼动,在大模型训练领域,CUDA生态十几年积累的护城河,加上灵活可编程的特性,训练新模型还是得靠它,未来十年这个位置没人能替代,所以它保持16%的稳定增长没问题。
但现在AI算力的结构已经变了——训练一个大模型只需要做一次,最多微调几次,而把模型给用户用,也就是推理,现在已经占了所有AI算力的三分之二,这个比例还会越来越大。
推理的需求很明确:模型架构固定,对成本极度敏感,不需要那么强的通用性,刚好给定制ASIC留下了空间,拼成本拼效率,定制芯片比通用GPU强太多。
最直观的例子是Midjourney公开的数据,把推理业务从英伟达GPU迁移到谷歌TPU之后,每月算力成本从210万美元降到了70万美元,直接砍了65%。
这个数字放大到云厂商百万级的芯片部署量,一年就是几十亿上百亿美元的节省,傻子才不做。
2026年全球头部云厂商总资本开支达到了6600-6900亿美元,其中75%都砸在了AI基础设施上,每家都有600-800亿美元的AI预算,越来越多的钱,流向了自己设计的定制芯片,而不是英伟达的GPU。
2. 四大云厂商的定制芯片军火库
现在谷歌、微软、亚马逊、Meta四家,每家都拿出了成熟的量产定制芯片,我们一个一个拆解参数和战略意图。
谷歌 TPU v7/V8 "Ironwood"
谷歌做TPU已经做了七代,从2015年到现在,这次Ironwood是谷歌架构升级最大的一代,完全为超大规模推理量身打造。
它用台积电3nm工艺生产,单芯片峰值FP8算力达到4.6 PFLOPS,配192GB HBM3e内存,带宽超过7.2TB/s,整个芯片从架构开始,就是给Gemini用的Transformer架构设计的,专门给注意力计算做了硬件优化。
谷歌把9216颗Ironwood组成一个Pod,用自己的定制光网状互联解决了GPU集群常见的网络瓶颈。现在Anthropic已经部署了超过一百万颗TPU v7跑Claude的推理,这也是定制AI芯片第一次单个客户就突破百万颗的部署量。
对谷歌来说,TPU既是自己用,也开放给谷歌云的客户,直接和英伟达GPU的实例打性价比,走的是垂直整合从芯片到云的路线。
并且,Google的V8也发布了,推理和训练也分开了。
微软 Maia 200
微软的第二代定制AI加速器2026年初刚出来,攒了好几年,和AMD、台积电一起磨出来的。
同样台积电3nm工艺,单芯片封装了超过1400亿晶体管,FP4算力超过10 PFLOPS,微软说这个性能是亚马逊Trainium 3的三倍以上,内存配了216GB HBM3e,是2026年量产定制芯片里容量最大的,峰值功耗750W,刚好卡在标准液冷机架的范围内。
微软的思路很清楚,Maia 200就是给OpenAI的GPT系列模型深度定制的,从固件、编译器到算子全都是量身优化的,不是为了完全替换英伟达GPU,而是互补——训练和通用推理还是用英伟达的实例,GPT专属的推理流量全部走Maia集群,摊下来每token的成本优势会越滚越大。
亚马逊 Trainium 3
亚马逊从2019年的Inferentia开始做定制硅,到2025年re:Invent已经更到第三代Trainium 3了,路线走得很稳。
同样台积电3nm,单芯片FP8算力2.52 PFLOPS,配144GB HBM3e内存,自带专门的NeuronCore,同时支持训练和推理,硬件层面就支持跨芯片的模型并行。
亚马逊能把Trainium 3组成最多一百万颗芯片的UltraCluster,用定制的EFA互联,单节点带宽3.2Tbps,官方说同等算力下,比英伟达的实例便宜一半。这个降价幅度,对英伟达的云GPU业务来说,是目前最凶的价格压力。
而且亚马逊的Neuron SDK已经做得很成熟了,PyTorch和JAX的任务只需要改很少的代码就能跑,门槛比很多人想象的低。
Meta MTIA
Meta是四家里面推进最快的,2026年已经有三代芯片在走,全部自己用不对外卖,所以公开参数不多,目标很明确:就是满足自己30亿用户的Llama推理需求。
现在已经大规模部署的是MTIA v2,主要跑Facebook和Instagram的排序推荐推理;今年中MTIA v3会量产,专门给Llama系列生成式AI推理做的;年底v4 "Santa Barbara"会出样,这也是Meta第一款用HBM4内存的芯片,针对高带宽需求的任务。
有意思的是Meta现在的分工很明确:训练还是找英伟达买H100和B200,推理全部上自己的MTIA,其实这也是现在整个行业的普遍分工模式。
除此之外,OpenAI也和博通合作,投了大概100亿美元设计定制推理芯片,目标到2029年部署10GW的容量,对应几十万颗芯片,现在还在设计阶段,后续动静肯定不小。
3. 2026年主流AI芯片参数横评
我把现在市面上量产和即将出样的主要芯片,包括各家定制ASIC和英伟达的新卡,整理了一个对比表,大家可以直接看参数差异:
规格参数
谷歌 TPU v7 Ironwood
微软 Maia 200
亚马逊 Trainium 3
NVIDIA Vera Rubin
NVIDIA B200 (Blackwell)
制程工艺
台积电 3nm
台积电 3nm
台积电 3nm
台积电 3nm(预计)
台积电 4nm
晶体管数量
未披露
1400 亿 +
未披露
3360 亿
2080 亿
峰值算力(FP8)
4.6 PFLOPS
约 5 PFLOPS(估算)
2.52 PFLOPS
约 25 PFLOPS(估算)
4.5 PFLOPS
峰值算力(FP4)
未披露
10+ PFLOPS
未披露
50 PFLOPS
9 PFLOPS
显存
192GB HBM3e
216GB HBM3e
144GB HBM3e
288GB HBM4
192GB HBM3e
显存带宽
7.2+ TB/s
约 8 TB/s(估算)
约 5 TB/s(估算)
12+ TB/s(估算)
8 TB/s
热设计功耗(TDP)
约 500W(估算)
750W
约 600W(估算)
约 1000W(估算)
1000W
最大集群 / 机柜规模
9216 颗芯片
Azure 机架级集群
100 万颗芯片(超集群)
Vera Rubin NVL144
GB200 NVL72
互联技术
自研光互联网格
Azure 定制互联
EFA 3.2 Tbps
NVLink 6(3.6 TB/s)
NVLink 5(1.8 TB/s)
主要负载
推理
推理(GPT 专项优化)
训练 + 推理
训练 + 推理
训练 + 推理
上市 / 可用时间
量产(2025 年起)
2026 年初
2026 年中
2026 年末 / 2027 年初
量产(2025 年)
2026年主流AI加速器参数对比表
这个表里最受关注的,就是英伟达用来反击的Vera Rubin,我们单独拿出来说。
4. 英伟达的反击:Vera Rubin架构
英伟达肯定不会坐以待毙,黄仁勋在2026年GTC直接放出了Vera Rubin,规格直接拉满,就是要抢回推理的性价比优势。
Vera Rubin用台积电3nm工艺,集成了3360亿晶体管,FP4算力达到50 PFLOPS,是全球第一款量产用288GB HBM4内存的AI加速器,英伟达官方说,推理性能比上一代Blackwell B200高5倍,每生成token的成本直接降十分之九。
新的NVLink 6互联带宽翻了一倍,达到3.6TB/s,可以把144颗Vera Rubin组成一个NVL144集群,专门给超过10万亿参数的超大模型训练用。
但英伟达最大的优势,至今还是CUDA生态——现在有超过500万活跃开发者,二十年的库优化,所有主流机器学习框架原生支持,这是所有定制ASIC都比不了的。定制芯片都要做自己的编译器和SDK,不管是谷歌的XLA还是亚马逊的Neuron,只要任务偏离芯片预设的架构,用起来就会有摩擦,这是英伟达的基本盘。
5. 推理经济学,为什么定制芯片必然崛起
我们把训练和推理的核心差异拉出来,你就能明白为什么市场必然走向分裂:
指标
训练(TRAINING)
推理(INFERENCE)
占 AI 总算力比例(2026 年)
约 33%
约 67%
成本敏感度
中等(一次性投入)
极高(持续边际成本)
负载可预测性
多变
高度可预测
所需架构灵活性
低(模型结构已知)
定制 ASIC 优势
中等
显著
英伟达优势
强劲(CUDA、灵活性)
逐渐减弱(成本压力)
训练vs推理核心指标对比表
数据来源是New Street Research和摩根士丹利。
现在分析师一致预测:到2028年,英伟达在推理专用算力的市场份额,会从现在的90%以上掉到20%-30%,训练市场英伟达还是稳稳的老大,但推理这块,已经挡不住定制芯片的进攻了。
为什么定制芯片能把成本压这么低?核心三个原因:
第一是架构专业化,针对Transformer里的注意力、前馈网络、采样这些常用操作做固定功能单元,去掉了通用GPU核心不必要的开销,效率自然高。
第二是垂直整合,云厂商从芯片设计、编译器到模型部署全链条自己控制,省掉了中间环节的利润加成,成本自然降下来。
第三是规模摊薄成本,一次投几百万颗芯片给台积电,设计一次性的NRE(非重复性工程)成本,摊到每颗芯片上就没多少了。
6. 所有人都躲不开的台积电瓶颈
一个很有意思的点:2026年所有这些主流AI芯片,不管是定制ASIC还是英伟达GPU,全都是台积电3nm工艺做的,等于谷歌、微软、亚马逊、Meta、英伟达全都在抢同一个产能。
台积电2026年上半年3nm产能利用率已经是100%了,需求大概是现有供应的三倍,新厂哪怕已经破土动工,从建好到量产也要18-24个月,缺口短期填不上。
台积电 3nm 客户
芯片型号
年度预估出货量
状态
谷歌
TPU v7 Ironwood
200 万颗以上
量产中
微软
Maia 200
50 万~100 万颗
产能爬坡
亚马逊
Trainium 3
100 万颗以上
产能爬坡
苹果
M4/M5 系列
3 亿颗以上
量产中
英伟达
Vera Rubin
100 万颗以上
样品送测
博通(为 OpenAI 定制)
定制推理芯片
待定
设计阶段
AMD
MI400 系列
50 万颗以上
样品送测
台积电3nm主要客户年产能预估表
现在产能分配就是看谁下单早、下单多,谷歌和苹果作为台积电最大的3nm客户,天然就有产能优先权,英伟达虽然晶圆量很大,但现在自己的客户也要和这些直接做芯片的云厂商抢产能,情况就很微妙。
产能这块已经变成了战略资源,拿到分配比做好设计还重要,这是很多人没注意到的点。
7. 基础设施跟着变:电力、散热、组网全要改
定制芯片起来之后,数据中心的基础设施要求也跟着变了,我们一个个说。
功率密度和散热
2026年云厂商几千亿的AI capex,直接转换成了前所未有的电力需求。定制ASIC的功耗普遍比英伟达旗舰GPU低,TPU v7大概500W,Trainium 3大概600W,Maia 200是750W,而Vera Rubin和B200都是1000W。但哪怕单芯片功耗低,部署量上去之后,总功耗还是会疯涨。
现在行业已经形成了明确的散热分级:
散热方案
风冷
直液冷
浸没式液冷
热设计功耗范围
最高 500W
500W–1000W
700W 以上
机柜功率密度
15–25 kW / 机柜
40–80 kW / 机柜
80–150+ kW / 机柜
2026 年采用率
持续下降
新建机房的 22%
新建机房的 <5%
基础设施成本
基准水平
基准的 1.3–1.8 倍
基准的 2.0–3.0 倍
不同TDP芯片对应散热方案对比表
500W以下可以用风冷,现在占比越来越低
500W到1000W用直接液冷就够,2025年新建数据中心已经有22%用了液冷
700W以上才需要浸没式液冷,成本是风冷的2-3倍
所以定制芯片其实在散热上有优势,大部分不需要上最贵的浸没式,基础设施成本本身就更低。
互联和组网
定制ASIC和英伟达GPU的互联策略完全不一样,英伟达用标准化的NVLink,现在NVLink 6已经到3.6TB/s,多GPU扩展有成熟的参考架构,直接照着做就行。
而云厂商的定制芯片,全都用自己的私有互联:谷歌是光网状,亚马逊是EFA,微软是Azure定制网络,对基础设施团队来说,这就意味着不同芯片的机架布局、布线、故障域设计全都不一样,要同时支持两种路线,复杂度比以前高很多。
现在数据中心都变成了异构部署:英伟达GPU做训练和灵活负载,定制ASIC做优化推理,一个数据中心里要同时跑不同架构、不同散热、不同互联的芯片,对部署和运维的专业要求比以前高太多了。
目前做这个全球部署的,Introl算是做得比较大的,在257个地点有550个专门做高性能计算的现场工程师,三年营收涨了9594%,上过Inc 5000,最多部署过十万颗GPU,铺了四万多英里光纤,这种物理部署的经验,不是软件自动化能替代的。
8. 不同角色的行动建议
最后给不同位置的朋友整理几个关键点,照着做就不会踩大坑。
对基础设施规划师
第一,一定要按异构来设计,电力、散热、组网都要预留同时容纳英伟达GPU和定制ASIC的空间,2026年之后的数据中心本来就是多架构并存。
第二,提前预算液冷,任何超过700W的新芯片都要液冷,旧改造价比新建贵1.5到2.5倍,早上比晚上好。
第三,提前锁产能,3nm缺口三倍,不管GPU还是ASIC交货周期都已经到12-18个月,2027年要部署的话,现在就得 commitments。
对运维团队
第一,要准备新的管理工具,定制芯片有自己的监控、诊断、编排栈,和英伟达原来的DCGM/NVSMI完全不一样,提前培训。
第二,私有互联和标准以太网、InfiniBand的维护流程不一样,提前做好对应准备。
第三,接受混合散热环境,同一个数据中心里可能同时有空冷旧服务器、直冷定制ASIC、浸没冷英伟达集群,每个的维护流程都不一样,提前梳理清楚。
对战略决策者
第一,英伟达的护城河在训练收窄,在推理还很稳,预算分配就是:训练给英伟达,发挥CUDA的灵活性价值;高容量推理优先看定制ASIC,拼每token成本。
第二,盯着20-30%这个份额阈值,如果到2028年英伟达推理份额真掉到这个区间,整个定价逻辑都会变,不要做全英伟达的绑定,提前布局多供应商。
第三, capex越早规划越好,2026年几千亿的总投入已经把芯片、网络、电力、散热整个供应链都挤紧张了,晚决策就可能拖18个月的交付。
9. 接下来会怎么走?
2026年只是拐点,不是终点,接下来两三年还有几个变量会加速变化:
第一,英伟达Vera Rubin的实际表现,如果真能兑现5倍性能10倍降本,那确实能抢回一部分推理市场,减慢定制芯片的渗透,关键要看实际产能够不够,不是看纸面参数。
第二,HBM4换代,Meta的MTIA v4和英伟达Vera Rubin都用了HBM4,带宽是HBM3e的两倍,提前适配新内存的芯片会拿到下一代优势,还卡在HBM3e的会被动。
第三,OpenAI的定制芯片什么时候上量,OpenAI现在全靠英伟达和微软,要是真几十万颗做出来,那整个行业都会跟着跟进做定制。
第四,台积电新产能2027年底会逐步释放,缺口会缓解一点,英特尔18A代工也会给大家多一个选择,只是目前AI芯片设计厂商用得还不多。
说白了,AI加速器市场在2026年已经出现了任何厂商都控制不了的结构性分裂。
英伟达确实铺好了整个大规模AI的底子,CUDA至今还是计算领域最重要的软件生态,但大规模推理的经济账,加上云厂商想要自己掌握芯片成本的野心,已经把市场推向了多供应商的未来,未来十年的数据中心架构,就是由这个变化定义的。
不管是什么规模的组织,只要你部署AI基础设施,现在都要回答一个问题:怎么在一个没有单芯片赢家的世界里做规划?
参考:https://introl.com/blog/custom-silicon-inflection-2026-hyperscaler-asics-nvidia-gpu
文章来源于歪睿老哥,作者歪睿老哥
创芯大讲堂芯片课程汇总
热门跟贴