·聚焦:人工智能、芯片等行业
欢迎各位客官关注、转发
前言:
在近日的Google Cloud Next大会上,谷歌第八代TPU不再是兼顾训练和推理的通用款,直接拆成了两款独立芯片。
这是谷歌自2016年推出第一代TPU以来,首次在硬件路线上做出如此大的调整。
作者| 方文三
图片来源 | 网络
从[一芯两用]到[各司其职]
TPU 8t与TPU 8i没有沿用统一的架构基底,针对两类负载的核心矛盾,做了全维度的差异化设计,甚至连芯片互联的底层拓扑都完全不同。
①TPU 8t:大规模预训练的算力巨兽
训练一个万亿参数的大模型,核心诉求是吞吐量(Throughput)。你需要在数周甚至数月内,让海量数据反复流过芯片,不断调整权重。
所以TPU 8t的设计语言是堆料和扩展,都指向同一个目标:让训练成为一场[并行度的狂欢]。
TPU 8t由谷歌与博通联合设计,核心目标是把前沿大模型的训练周期从数月压缩至数周。
在核心规格上,TPU 8t单Pod可扩展至9600颗芯片,配套2PB共享高带宽内存,FP4精度下总算力达121 exaflops,较上一代Ironwood TPU提升近3倍。
为了匹配超大规模集群的并行训练需求,谷歌全新设计了Virgo高速互联网络,芯片间双向扩展带宽翻倍,数据中心级对外带宽提升至前代的4倍。
依托JAX与Pathways分布式框架,可实现单逻辑集群超100万颗芯片的近线性扩展。
对于动辄持续数周的万亿参数模型训练,任何一次硬件故障、网络 stall 或检查点重启,都会带来巨额的算力浪费。
TPU 8t通过全链路的RAS(可靠性、可用性与可维护性)设计,实现了97%以上的[goodput](有效计算时间占比)。
可实时监测数万颗芯片的运行状态,自动检测并绕开故障链路,无需人工干预即可完成硬件故障的冗余切换,把每一个百分点的算力浪费都找了回来。
推理则完全是另一套逻辑,当数百万个AI智能体同时在线,用户发出一个请求,系统需要在毫秒级别给出回应。
推理对峰值算力的要求其实低于训练,但对延迟和并发的敏感度呈指数级上升。
一个AI Agent处理用户任务时,往往要经历多步推理、工具调用、自我修正,单次用户请求可能触发10到20次模型调用。
如果每一步都有延迟,累积起来的[等待感]会让用户体验直接崩塌。
TPU 8i由谷歌与联发科联合设计,核心目标是解决AI推理场景的内存墙与延迟瓶颈,尤其是智能体时代带来的全新负载挑战。
芯片配备384MB片上SRAM,是上一代Ironwood的3倍,可将大模型推理的活跃工作集与KV缓存完整存放在片上,大幅减少长文本解码时的核心空闲等待。
同时搭配288GB HBM,内存带宽达8601GB/s,比TPU 8t还要高出30%。
放弃了训练场景常用的3D环形拓扑,改用专为推理设计的Boardfly层级互联架构。
同等1024颗芯片的集群规模下,传统3D环形拓扑的最远通信需要16跳。
而Boardfly拓扑将最大跳数压缩至7跳,网络直径缩减56%,全节点通信延迟降低50%,完美适配混合专家(MoE)模型与多智能体协同的密集通信需求。
内置专属的集合通信加速引擎(CAE),将推理场景高频的规约、同步运算从计算核心中卸载,片上集合通信延迟降低5倍,消除了自回归解码、多轮推理中的等待开销。
最终的结果是,TPU 8i在同等成本下,可承载的用户服务量接近翻倍,每美元性能较上一代提升80%,每瓦性能提升117%。
对于谷歌自身而言,其内部AI服务容量需要每6个月翻倍,推理已经成为最大的运营成本项,这款芯片的价值不言而喻。
训练芯片在造[高速公路],推理芯片在修[城市快速路]。
两者解决的问题维度不同,自然不能共用同一张图纸。
无法再妥协的行业拐点
当通用架构的妥协设计,已经无法兼顾两类负载的核心需求,拆分就成了必然的选择。
AI负载的本质分化,已经突破了通用架构的兼顾极限。
训练与推理的底层需求,从一开始就存在根本性的矛盾。
随着大模型进入万亿参数时代,混合专家架构成为主流。
尤其是智能体AI的兴起,让推理负载发生了本质变化。
通用架构的[既要又要],最终只会变成[两边都要妥协]。
用训练芯片跑推理,会有大量的扩展互联单元闲置,造成算力与功耗的浪费。
用推理芯片做训练,又无法满足超大规模集群的扩展需求。
当这种妥协带来的效率损失,已经超过了拆分架构的研发与供应链成本,独立设计就成了更优解。
训练是一次性的资本开支,而推理是伴随业务规模持续增长的运营开支,已经成为AI企业最大的成本项。
推理成本已经成为AI产业化的[堰塞湖],如果推理的性价比提不上来,Agent的规模化部署就会卡在经济学门槛上。
Anthropic作为谷歌TPU的锚点客户,已经签下了2027年3.5吉瓦算力的合作协议,其营收规模已突破300亿美元。
对算力的需求核心,已经从训练转向大规模的推理服务。
谁能提供更低成本、更高效率的推理算力,谁就能拿下这些千亿级的大客户。
拆分架构带来的性价比提升,直接击中了行业的核心痛点。
TPU 8t同等价格下性能提升2.8倍,TPU 8i同等成本下服务能力翻倍,这种级别的成本优化,足以改变云厂商在AI算力市场的竞争格局。
当制程工艺进入2nm时代,通用架构通过制程升级带来的性能提升,越来越难覆盖指数级增长的AI算力需求。
想要在同样的制程下获得更高的能效与性价比,唯一的路径就是针对具体负载做专用化设计。
这一点在TPU 8i的设计上体现得尤为明显,Boardfly拓扑、CAE加速引擎、超大容量片上SRAM。
这些设计都是为了减少推理场景中的无效等待,把通用架构中被浪费的算力找回来。
一场精心计算的[风险分摊]
TPU 8t与博通合作,TPU 8i与联发科合作,针对两类芯片的不同需求,匹配了最适合的设计与制造伙伴。
博通是谷歌TPU的老搭档,从第一代开始就一直参与。
训练芯片的设计复杂度极高,涉及超大规模集群的互联、可靠性、散热和软件协同,需要深厚的技术积累和长期的磨合。
博通在这些方面已经证明了自己,继续合作是稳健的选择。
但推理芯片选择联发科,则带有更强的战略试探意味。
联发科在移动端SoC领域积累了大量低功耗、高集成度的设计经验,这些能力恰好与推理芯片[低延迟、高能效]的诉求高度契合。
引入联发科意味着谷歌在TPU供应链上不再单一依赖博通,形成了事实上的[双供应商]格局。
在半导体行业,训练芯片的容错空间更小。
一次训练任务可能持续数周,中间如果芯片出问题,代价是数百万美元的算力和时间损失。
推理芯片虽然对延迟敏感,但单颗芯片的故障影响范围相对可控,更适合引入新的合作伙伴来分摊风险和成本。
谷歌的这步棋,既是对技术路线的分化,也是对供应链风险的重新配置,还获得了更强的议价权。
与英伟达的[不对称战争]
目前英伟达在AI算力市场仍占据绝对主导地位,D.A. Davidson分析师预估:谷歌TPU业务与DeepMind AI部门的合并估值约为9000亿美元。
谷歌的策略不是在英伟达的主场正面硬刚,第八代TPU的拆分,让这种差异化更加鲜明。
TPU 8t不追求在单卡峰值算力上超越英伟达的下一代GPU,而是通过系统级设计,把训练效率拉到极限。
TPU 8i则干脆避开了与GPU在通用场景下的竞争,专攻Agent推理这个正在爆发但尚未被充分满足的细分市场。
谷歌在发布TPU 8t/8i的同时,还宣布将在下半年成为首家提供NVIDIA Vera Rubin NVL72超级计算机的云服务商。
这种既合作又竞争的姿态,说明谷歌很清楚在训练市场的存量博弈中,英伟达的生态优势短期内难以撼动。
但在推理市场的增量争夺中,专用架构有机会重新定义规则。
结尾:
未来的AI算力市场,不会再有[一款芯片打天下]的情况。
模型最终要通过推理服务才能实现商业价值,推理的成本、延迟、并发能力,直接决定了产品的用户体验与盈利空间。
芯片战争的下半场,比的或许不再是谁能造出更强的[通用引擎],而是谁能为特定的未来场景,设计出最贴合的[专用心脏]。
部分资料参考:雷峰网:《正面刚老黄!谷歌TPU 8i的[偷家]战术:不打最贵的仗,只割最肥的肉》,DeepTech深科技:《谷歌第八代TPU双舰齐发,终结AI推理延迟,让智能体真正实现随叫随到》,量子位:《马斯克站台谷歌第8代TPU!训练从数月缩至数周、推理性价比提升80%》,常华Andy:《Google TPU 8深度解析:面向智能体任务的架构定制》,APPSO:《劈柴哥把谷歌AI 芯片[劈]成两半,要硬刚英伟达了》
本公众号所刊发稿件及图片来源于网络,仅用于交流使用,如有侵权请联系回复,我们收到信息后会在24小时内处理。
请务必注明:
「姓名 + 公司 + 合作需求」
热门跟贴