谷歌把芯片掰成两半，AI代理时代真的来了|工作流|引擎|知名企业|英伟达|谷歌

4月22日，拉斯维加斯，Google Cloud Next '26现场。当谷歌宣布第八代张量处理单元（TPU，Tensor Processing Unit）时，台下工程师的反应分成两派：训练团队鼓掌，推理团队直接站了起来。这是TPU历史上第一次——一代产品不是一块芯片，而是两块。

训练芯片叫TPU 8t，推理芯片叫TPU 8i。谷歌终于承认：训练和推理的物理规律根本不同，硬塞进同一个架构是自欺欺人。这个决定本身，比任何性能数字都更能说明AI基础设施正在发生什么。

为什么一块芯片不够用了

过去几代TPU，包括去年的Ironwood，都被宣传为"统一旗舰芯片"。谷歌内部跑Gemini、跑消费级AI产品、跑越来越复杂的代理工作负载之后，发现单一架构逼着你在关键地方做妥协。

标准检索增强生成（RAG，Retrieval-Augmented Generation）的工作模式是：检索，生成，结束。AI代理（Agentic AI）完全不同——它要推理、规划、执行、循环反馈。这种区别在基础设施层面是致命的。

聊天式AI推理对延迟相对宽容。用户提交提示，等一两秒，读回复。代理工作流不是这样：主代理把目标拆解成子任务，分发给专业代理，收集结果，评估，决定下一步——全程实时，可能同时跑几千个会话。每步延迟都会累积。如果你的推理芯片为吞吐量优化（训练确实需要这个），代理循环就会变得迟钝、昂贵、难以扩展。

谷歌的云基础设施副总裁Amin Vahdat在台上说：「代理工作负载的延迟特征完全不同于聊天或训练。我们需要为这种新模式重新设计芯片。」

于是路线图一分为二。

TPU 8t：把全球数据中心变成一台超级计算机

训练芯片的参数很直接：单超级舱（superpod）塞进9,600块芯片，提供121 exaflops算力，2PB共享内存，通过高速芯片间互联（ICI，Inter-Chip Interconnect）连接。算力大概是上一代的3倍，ICI带宽翻倍，确保大模型能接近线性扩展。

更夸张的是集群层面。谷歌现在可以把超过100万块TPU跨多个数据中心站点连成训练集群——本质上把全球分布的基础设施变成一台无缝超级计算机。

这个数字需要消化一下：100万块TPU。不是数据中心，不是机房，是"一台"超级计算机。谷歌在训练层面的赌注是，模型规模竞赛远未结束， whoever能喂给模型更多算力，谁就能训练出下一代突破。

但8t的故事相对直白。真正有意思的是另一块芯片。

TPU 8i：为代理循环重新发明芯片

推理芯片的架构改动更激进。片上SRAM比上一代多3倍，TPU 8i能把更大的键值缓存（KV Cache）完全放在硅片上，大幅减少长上下文解码时核心的空闲时间。

关键创新是一个叫"集合加速引擎"（CAE，Collectives Acceleration Engine）的专用单元。它用接近零的延迟聚合跨核心结果，专门加速自回归解码和思维链处理所需的归约与同步步骤。片上集合操作延迟降低5倍。

谷歌还重新设计了芯片间网络拓扑。之前的3D环面拓扑优先带宽，8i改用全连接板聚合进更大的组，针对代理工作流的通信模式优化。

这些改动的目标很明确：让代理的"思考-行动-观察"循环尽可能快。不是让单次推理变快，是让成千上万次小推理的链条变快。

一图读懂：两块芯片的分工逻辑

如果把AI基础设施画成一张图，核心分叉点在这里：

【训练侧】追求极致吞吐 → 数据并行+模型并行 → 延迟不敏感 → TPU 8t的121 exaflops集群

【推理侧】追求极致延迟 → 序列依赖+状态累积 → 延迟极度敏感 → TPU 8i的CAE引擎+片上KV Cache

这个分叉不是谷歌的发明，是AI代理工作负载逼出来的。只是谷歌第一个在芯片层面承认它。

亚马逊的Trainium和Inferentia早就分开，但那是两代产品线的分离，不是同一代内部的架构分叉。英伟达的H100/B100统一架构仍在同时服务训练和推理。谷歌的做法更彻底：同一代号，两种物理。

谁在买单？代理基础设施的商业模式

谷歌同步公布了定价：TPU 8i的按需实例约每小时4.20美元，承诺使用折扣可降至约2.10美元。作为对比，AWS的Trainium2实例约每小时1.98美元，但性能特征完全不同——Trainium2仍是统一设计，没有针对代理延迟做专门优化。

真正的客户不是想省钱的人，是想让代理工作流跑得通的人。谷歌展示的用例包括：多步骤代码生成代理、实时金融分析代理、跨系统自动化工作流。这些场景的共同点：延迟瓶颈不在模型大小，而在步骤之间的协调开销。

一个数字：谷歌称在内部测试中，复杂代理任务的端到端延迟降低40%-60%。这不是单次推理变快，是整个任务链条变快。对于按任务付费的代理服务，这意味着单位经济性的质变。

行业信号：芯片设计的代理化转向

谷歌不是唯一一家重新思考芯片架构的公司。OpenAI被传在探索定制推理芯片，Anthropic与台积电的合作也在深化。但谷歌的优势在于：它同时控制模型（Gemini）、平台（Vertex AI）和基础设施（TPU），能闭环验证设计假设。

Vahdat提到的一个细节：TPU 8i的CAE引擎设计直接来自运行Gemini 2.5 Pro的内部经验。模型团队告诉基础设施团队，思维链长度增加10倍时，集合操作成为瓶颈。这个反馈循环，垂直整合的芯片厂商才能跑通。

这也解释了为什么谷歌敢在同一代产品里做架构分裂——它不需要说服外部客户接受两种芯片，自己的代理工作负载已经足够大。

数字收束：100万块芯片与5倍延迟降低

回到拉斯维加斯的发布现场。两个数字值得记住：121 exaflops的训练算力，5倍的片上集合延迟降低。前者是谷歌对模型规模竞赛的押注，后者是对代理交互模式的承认。

把TPU掰成两半，本质上是在承认：AI基础设施的优化目标正在从"训练更大的模型"转向"让模型更快行动"。这不是说训练不重要了——100万块芯片的集群证明谷歌仍在加码——而是说推理侧的新工作负载需要新的物理基础。

代理时代的基础设施竞赛，刚开场。

谷歌把芯片掰成两半，AI代理时代真的来了

热搜

热门跟贴

热搜

热门跟贴

相关推荐

不再一颗AI芯片通吃？谷歌拆分模型训练和推理专用芯片

谷歌把AI芯片拆成两块，打的什么算盘？

谷歌第八代TPU详解： 拆分训练与推理，携博通与联发科挑战英伟达

英伟达在中国跌下神坛？国产AI芯片崛起，华为杀到第2名！

3万人涌入的谷歌云大会：发TPU芯片挑战英伟达，还有智能体“全家桶”

谷歌已将AI广泛用于编程 CEO透露目前超7成新代码是由AI生成

谷歌把这技术藏了8年，2026年突然摊牌了

谷歌要搞“AI灯带”，魅族又成了行业先烈？

软件开发最后的一块儿阵地，被AI攻克了

AI时代月薪6万vs被裁：K型分化正在撕裂职场

自从有了Ai，小时候的动画片算是白看了

谷歌跪了？400亿砸向死敌！AI御三家终结，OpenAI孤立无援

别高估英伟达，别低估DeepSeek

滴滴、千问们的AI打车，可能找错了方向

36氪首发 | 核心团队来自微软，获近亿投资，要打通AI进厂最后一公里

腾讯大模型重回牌桌了吗？

GPT5.5深夜炸场，这次OpenAI又行了

00后小哥复刻Claude最强神话模型OpenMythos

定了，DeepSeek V4首发华为芯片！国产AI开始打破英伟达「垄断」

算力芯片概念持续走高，华虹公司涨超13%

谷歌第八代TPU详解：拆分训练与推理，携博通与联发科挑战英伟达