4月22日,拉斯维加斯,Google Cloud Next '26现场。当谷歌宣布第八代张量处理单元(TPU,Tensor Processing Unit)时,台下工程师的反应分成两派:训练团队鼓掌,推理团队直接站了起来。这是TPU历史上第一次——一代产品不是一块芯片,而是两块。
训练芯片叫TPU 8t,推理芯片叫TPU 8i。谷歌终于承认:训练和推理的物理规律根本不同,硬塞进同一个架构是自欺欺人。这个决定本身,比任何性能数字都更能说明AI基础设施正在发生什么。
为什么一块芯片不够用了
过去几代TPU,包括去年的Ironwood,都被宣传为"统一旗舰芯片"。谷歌内部跑Gemini、跑消费级AI产品、跑越来越复杂的代理工作负载之后,发现单一架构逼着你在关键地方做妥协。
标准检索增强生成(RAG,Retrieval-Augmented Generation)的工作模式是:检索,生成,结束。AI代理(Agentic AI)完全不同——它要推理、规划、执行、循环反馈。这种区别在基础设施层面是致命的。
聊天式AI推理对延迟相对宽容。用户提交提示,等一两秒,读回复。代理工作流不是这样:主代理把目标拆解成子任务,分发给专业代理,收集结果,评估,决定下一步——全程实时,可能同时跑几千个会话。每步延迟都会累积。如果你的推理芯片为吞吐量优化(训练确实需要这个),代理循环就会变得迟钝、昂贵、难以扩展。
谷歌的云基础设施副总裁Amin Vahdat在台上说:「代理工作负载的延迟特征完全不同于聊天或训练。我们需要为这种新模式重新设计芯片。」
于是路线图一分为二。
TPU 8t:把全球数据中心变成一台超级计算机
训练芯片的参数很直接:单超级舱(superpod)塞进9,600块芯片,提供121 exaflops算力,2PB共享内存,通过高速芯片间互联(ICI,Inter-Chip Interconnect)连接。算力大概是上一代的3倍,ICI带宽翻倍,确保大模型能接近线性扩展。
更夸张的是集群层面。谷歌现在可以把超过100万块TPU跨多个数据中心站点连成训练集群——本质上把全球分布的基础设施变成一台无缝超级计算机。
这个数字需要消化一下:100万块TPU。不是数据中心,不是机房,是"一台"超级计算机。谷歌在训练层面的赌注是,模型规模竞赛远未结束, whoever能喂给模型更多算力,谁就能训练出下一代突破。
但8t的故事相对直白。真正有意思的是另一块芯片。
TPU 8i:为代理循环重新发明芯片
推理芯片的架构改动更激进。片上SRAM比上一代多3倍,TPU 8i能把更大的键值缓存(KV Cache)完全放在硅片上,大幅减少长上下文解码时核心的空闲时间。
关键创新是一个叫"集合加速引擎"(CAE,Collectives Acceleration Engine)的专用单元。它用接近零的延迟聚合跨核心结果,专门加速自回归解码和思维链处理所需的归约与同步步骤。片上集合操作延迟降低5倍。
谷歌还重新设计了芯片间网络拓扑。之前的3D环面拓扑优先带宽,8i改用全连接板聚合进更大的组,针对代理工作流的通信模式优化。
这些改动的目标很明确:让代理的"思考-行动-观察"循环尽可能快。不是让单次推理变快,是让成千上万次小推理的链条变快。
一图读懂:两块芯片的分工逻辑
如果把AI基础设施画成一张图,核心分叉点在这里:
【训练侧】追求极致吞吐 → 数据并行+模型并行 → 延迟不敏感 → TPU 8t的121 exaflops集群
【推理侧】追求极致延迟 → 序列依赖+状态累积 → 延迟极度敏感 → TPU 8i的CAE引擎+片上KV Cache
这个分叉不是谷歌的发明,是AI代理工作负载逼出来的。只是谷歌第一个在芯片层面承认它。
亚马逊的Trainium和Inferentia早就分开,但那是两代产品线的分离,不是同一代内部的架构分叉。英伟达的H100/B100统一架构仍在同时服务训练和推理。谷歌的做法更彻底:同一代号,两种物理。
谁在买单?代理基础设施的商业模式
谷歌同步公布了定价:TPU 8i的按需实例约每小时4.20美元,承诺使用折扣可降至约2.10美元。作为对比,AWS的Trainium2实例约每小时1.98美元,但性能特征完全不同——Trainium2仍是统一设计,没有针对代理延迟做专门优化。
真正的客户不是想省钱的人,是想让代理工作流跑得通的人。谷歌展示的用例包括:多步骤代码生成代理、实时金融分析代理、跨系统自动化工作流。这些场景的共同点:延迟瓶颈不在模型大小,而在步骤之间的协调开销。
一个数字:谷歌称在内部测试中,复杂代理任务的端到端延迟降低40%-60%。这不是单次推理变快,是整个任务链条变快。对于按任务付费的代理服务,这意味着单位经济性的质变。
行业信号:芯片设计的代理化转向
谷歌不是唯一一家重新思考芯片架构的公司。OpenAI被传在探索定制推理芯片,Anthropic与台积电的合作也在深化。但谷歌的优势在于:它同时控制模型(Gemini)、平台(Vertex AI)和基础设施(TPU),能闭环验证设计假设。
Vahdat提到的一个细节:TPU 8i的CAE引擎设计直接来自运行Gemini 2.5 Pro的内部经验。模型团队告诉基础设施团队,思维链长度增加10倍时,集合操作成为瓶颈。这个反馈循环,垂直整合的芯片厂商才能跑通。
这也解释了为什么谷歌敢在同一代产品里做架构分裂——它不需要说服外部客户接受两种芯片,自己的代理工作负载已经足够大。
数字收束:100万块芯片与5倍延迟降低
回到拉斯维加斯的发布现场。两个数字值得记住:121 exaflops的训练算力,5倍的片上集合延迟降低。前者是谷歌对模型规模竞赛的押注,后者是对代理交互模式的承认。
把TPU掰成两半,本质上是在承认:AI基础设施的优化目标正在从"训练更大的模型"转向"让模型更快行动"。这不是说训练不重要了——100万块芯片的集群证明谷歌仍在加码——而是说推理侧的新工作负载需要新的物理基础。
代理时代的基础设施竞赛,刚开场。
热门跟贴