热点丨谷歌第8代TPU首次一分为二，拆分训练/推理何意味

AI芯天下

2026-04-27 20:32 ·广东 ·优质财经领域创作者

·聚焦:人工智能、芯片等行业

欢迎各位客官关注、转发

前言：

在近日的Google Cloud Next大会上，谷歌第八代TPU不再是兼顾训练和推理的通用款，直接拆成了两款独立芯片。

这是谷歌自2016年推出第一代TPU以来，首次在硬件路线上做出如此大的调整。

作者| 方文三

图片来源 | 网络

从[一芯两用]到[各司其职]

TPU 8t与TPU 8i没有沿用统一的架构基底，针对两类负载的核心矛盾，做了全维度的差异化设计，甚至连芯片互联的底层拓扑都完全不同。

①TPU 8t：大规模预训练的算力巨兽

训练一个万亿参数的大模型，核心诉求是吞吐量（Throughput）。你需要在数周甚至数月内，让海量数据反复流过芯片，不断调整权重。

所以TPU 8t的设计语言是堆料和扩展，都指向同一个目标：让训练成为一场[并行度的狂欢]。

TPU 8t由谷歌与博通联合设计，核心目标是把前沿大模型的训练周期从数月压缩至数周。

在核心规格上，TPU 8t单Pod可扩展至9600颗芯片，配套2PB共享高带宽内存，FP4精度下总算力达121 exaflops，较上一代Ironwood TPU提升近3倍。

为了匹配超大规模集群的并行训练需求，谷歌全新设计了Virgo高速互联网络，芯片间双向扩展带宽翻倍，数据中心级对外带宽提升至前代的4倍。

依托JAX与Pathways分布式框架，可实现单逻辑集群超100万颗芯片的近线性扩展。

对于动辄持续数周的万亿参数模型训练，任何一次硬件故障、网络 stall 或检查点重启，都会带来巨额的算力浪费。

TPU 8t通过全链路的RAS（可靠性、可用性与可维护性）设计，实现了97%以上的[goodput]（有效计算时间占比）。

可实时监测数万颗芯片的运行状态，自动检测并绕开故障链路，无需人工干预即可完成硬件故障的冗余切换，把每一个百分点的算力浪费都找了回来。

②TPU 8i：推理场景的精准手术刀

推理则完全是另一套逻辑，当数百万个AI智能体同时在线，用户发出一个请求，系统需要在毫秒级别给出回应。

推理对峰值算力的要求其实低于训练，但对延迟和并发的敏感度呈指数级上升。

一个AI Agent处理用户任务时，往往要经历多步推理、工具调用、自我修正，单次用户请求可能触发10到20次模型调用。

如果每一步都有延迟，累积起来的[等待感]会让用户体验直接崩塌。

TPU 8i由谷歌与联发科联合设计，核心目标是解决AI推理场景的内存墙与延迟瓶颈，尤其是智能体时代带来的全新负载挑战。

芯片配备384MB片上SRAM，是上一代Ironwood的3倍，可将大模型推理的活跃工作集与KV缓存完整存放在片上，大幅减少长文本解码时的核心空闲等待。

同时搭配288GB HBM，内存带宽达8601GB/s，比TPU 8t还要高出30%。

放弃了训练场景常用的3D环形拓扑，改用专为推理设计的Boardfly层级互联架构。

同等1024颗芯片的集群规模下，传统3D环形拓扑的最远通信需要16跳。

而Boardfly拓扑将最大跳数压缩至7跳，网络直径缩减56%，全节点通信延迟降低50%，完美适配混合专家（MoE）模型与多智能体协同的密集通信需求。

内置专属的集合通信加速引擎（CAE），将推理场景高频的规约、同步运算从计算核心中卸载，片上集合通信延迟降低5倍，消除了自回归解码、多轮推理中的等待开销。

最终的结果是，TPU 8i在同等成本下，可承载的用户服务量接近翻倍，每美元性能较上一代提升80%，每瓦性能提升117%。

对于谷歌自身而言，其内部AI服务容量需要每6个月翻倍，推理已经成为最大的运营成本项，这款芯片的价值不言而喻。

训练芯片在造[高速公路]，推理芯片在修[城市快速路]。

两者解决的问题维度不同，自然不能共用同一张图纸。

无法再妥协的行业拐点

当通用架构的妥协设计，已经无法兼顾两类负载的核心需求，拆分就成了必然的选择。

AI负载的本质分化，已经突破了通用架构的兼顾极限。

训练与推理的底层需求，从一开始就存在根本性的矛盾。

随着大模型进入万亿参数时代，混合专家架构成为主流。

尤其是智能体AI的兴起，让推理负载发生了本质变化。

通用架构的[既要又要]，最终只会变成[两边都要妥协]。

用训练芯片跑推理，会有大量的扩展互联单元闲置，造成算力与功耗的浪费。

用推理芯片做训练，又无法满足超大规模集群的扩展需求。

当这种妥协带来的效率损失，已经超过了拆分架构的研发与供应链成本，独立设计就成了更优解。

训练是一次性的资本开支，而推理是伴随业务规模持续增长的运营开支，已经成为AI企业最大的成本项。

推理成本已经成为AI产业化的[堰塞湖]，如果推理的性价比提不上来，Agent的规模化部署就会卡在经济学门槛上。

Anthropic作为谷歌TPU的锚点客户，已经签下了2027年3.5吉瓦算力的合作协议，其营收规模已突破300亿美元。

对算力的需求核心，已经从训练转向大规模的推理服务。

谁能提供更低成本、更高效率的推理算力，谁就能拿下这些千亿级的大客户。

拆分架构带来的性价比提升，直接击中了行业的核心痛点。

TPU 8t同等价格下性能提升2.8倍，TPU 8i同等成本下服务能力翻倍，这种级别的成本优化，足以改变云厂商在AI算力市场的竞争格局。

当制程工艺进入2nm时代，通用架构通过制程升级带来的性能提升，越来越难覆盖指数级增长的AI算力需求。

想要在同样的制程下获得更高的能效与性价比，唯一的路径就是针对具体负载做专用化设计。

这一点在TPU 8i的设计上体现得尤为明显，Boardfly拓扑、CAE加速引擎、超大容量片上SRAM。

这些设计都是为了减少推理场景中的无效等待，把通用架构中被浪费的算力找回来。

一场精心计算的[风险分摊]

TPU 8t与博通合作，TPU 8i与联发科合作，针对两类芯片的不同需求，匹配了最适合的设计与制造伙伴。

博通是谷歌TPU的老搭档，从第一代开始就一直参与。

训练芯片的设计复杂度极高，涉及超大规模集群的互联、可靠性、散热和软件协同，需要深厚的技术积累和长期的磨合。

博通在这些方面已经证明了自己，继续合作是稳健的选择。

但推理芯片选择联发科，则带有更强的战略试探意味。

联发科在移动端SoC领域积累了大量低功耗、高集成度的设计经验，这些能力恰好与推理芯片[低延迟、高能效]的诉求高度契合。

引入联发科意味着谷歌在TPU供应链上不再单一依赖博通，形成了事实上的[双供应商]格局。

在半导体行业，训练芯片的容错空间更小。

一次训练任务可能持续数周，中间如果芯片出问题，代价是数百万美元的算力和时间损失。

推理芯片虽然对延迟敏感，但单颗芯片的故障影响范围相对可控，更适合引入新的合作伙伴来分摊风险和成本。

谷歌的这步棋，既是对技术路线的分化，也是对供应链风险的重新配置，还获得了更强的议价权。

与英伟达的[不对称战争]

目前英伟达在AI算力市场仍占据绝对主导地位，D.A. Davidson分析师预估：谷歌TPU业务与DeepMind AI部门的合并估值约为9000亿美元。

谷歌的策略不是在英伟达的主场正面硬刚，第八代TPU的拆分，让这种差异化更加鲜明。

TPU 8t不追求在单卡峰值算力上超越英伟达的下一代GPU，而是通过系统级设计，把训练效率拉到极限。

TPU 8i则干脆避开了与GPU在通用场景下的竞争，专攻Agent推理这个正在爆发但尚未被充分满足的细分市场。

谷歌在发布TPU 8t/8i的同时，还宣布将在下半年成为首家提供NVIDIA Vera Rubin NVL72超级计算机的云服务商。

这种既合作又竞争的姿态，说明谷歌很清楚在训练市场的存量博弈中，英伟达的生态优势短期内难以撼动。

但在推理市场的增量争夺中，专用架构有机会重新定义规则。

结尾：

未来的AI算力市场，不会再有[一款芯片打天下]的情况。

模型最终要通过推理服务才能实现商业价值，推理的成本、延迟、并发能力，直接决定了产品的用户体验与盈利空间。

芯片战争的下半场，比的或许不再是谁能造出更强的[通用引擎]，而是谁能为特定的未来场景，设计出最贴合的[专用心脏]。

部分资料参考：雷峰网：《正面刚老黄！谷歌TPU 8i的[偷家]战术：不打最贵的仗，只割最肥的肉》，DeepTech深科技：《谷歌第八代TPU双舰齐发，终结AI推理延迟，让智能体真正实现随叫随到》，量子位：《马斯克站台谷歌第8代TPU！训练从数月缩至数周、推理性价比提升80%》，常华Andy：《Google TPU 8深度解析：面向智能体任务的架构定制》，APPSO：《劈柴哥把谷歌AI 芯片[劈]成两半，要硬刚英伟达了》

本公众号所刊发稿件及图片来源于网络，仅用于交流使用，如有侵权请联系回复，我们收到信息后会在24小时内处理。

请务必注明：

「姓名 + 公司 + 合作需求」

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴