谷歌TPU分家：一颗芯片打不赢Agent时代|agent|微软|知名企业|英伟达|谷歌

拉斯维加斯Google Cloud Next大会，谷歌高级副总裁Amin Vahdat从口袋里掏出两枚芯片——TPU 8t与TPU 8i。这是谷歌TPU家族史上第一次明确"分家"。

一枚专攻训练，一枚专注推理。这个动作为什么重要？因为谷歌率先释放了一个信号：AI算力正在从"万能芯片"的草莽时代，进入流水线式的精细化分工时代。

为什么非要"分家"？

训练和推理，看似都是AI算力的活儿，本质完全不同。

训练像学霸埋头啃完整个人类图书馆，追求"大力出奇迹"，核心是把模型能力"锤炼"出来。推理则像学霸毕业后去大厂当客服，重点不再是谁懂得最多，而是谁回得够快、成本够低、性价比够高。

过去业界默认一颗芯片兼顾两者，是因为AI处在算力早期：模型没那么大，场景没那么多，统一架构至少可以摊薄研发成本。但到了Agentic AI时代，这套逻辑开始失效。训练和推理的诉求，已经变得几乎不可调和。

过去两年，硅谷风向从"大模型狂热"转向"智能体热"。AI不再只是陪你聊天的对话框，而是会接任务、会调工具、会连续干活的"数字员工"。Agent带来的推理事务量，往往是普通聊天机器人的20到50倍。

企业的成本焦虑，迅速从"训练太贵"转向"推理更贵"。

算笔经济账。训练芯片为了追求"大力出奇迹"，必须配备极其昂贵的HBM（高带宽内存）。HBM成本约占整块芯片成本的40%-50%，且十分稀缺。拿这种高成本训练芯片，去跑Agent每天几十万次的高频推理请求，相当于用洲际导弹送外卖。

「关键在于如何以最低的每笔交易成本实现最低的响应延迟。交易量正在大幅攀升，而每笔交易的成本必须大幅下降，才能实现规模化。」谷歌云人工智能与计算基础架构副总裁Mark Lohmeyer如此说道。

TPU 8i的"偷家"战术

这场"分家"的核心焦点，正是那枚为"奔跑"而生的TPU 8i。

先看训练用的TPU 8t。单个超级模块集成9600颗芯片，提供121 exaflops算力和2PB共享内存，计算性能较前代提升近3倍；新的Virgo横向扩展架构，让单个集群可调度超过100万颗TPU芯片，能把前沿大模型的训练周期从"数月"压缩到"数周"。在电力成为数据中心核心瓶颈的今天，它能在同等价格下性能提升2.8倍，每瓦性能提升124%。

但真正的变量是TPU 8i。谷歌给它换了个完全不同的"大脑"结构，精准解决Agent时代高频交互的痛点。

第一步，给芯片的"短期记忆"史诗级加强。片上SRAM直接扩容3倍，让芯片随手就能抓到关键数据，不用每走一步都去"翻内存字典"，极大减少数据搬运损耗。这3倍SRAM空间，配合288GB的HBM内存，从根源上解决AI思考时的"脑卡顿"。

更硬核的是省电。TPU 8i的能效比较上一代提升117%。这意味着谷歌云可以用同样的一张电费账单，支撑起近乎两倍的推理服务。

TPU 8i为谷歌拿下Agent时代的"商业化入场券"。

据Gartner预测，到2026年底，40%的企业应用将嵌入特定任务的AI Agent。麦肯锡估算，到2030年，由Agentic AI带来的商业机会高达3万亿至5万亿美元。

技术再牛，模型再聪明，如果跑一次推理的成本高到客户掏不起钱，就是空中楼阁。谷歌把芯片一分为二，向整个行业宣告：AI的下半场，谁能把"劳务费"打下来，谁才能笑到最后。

Meta、Anthropic"入伙"，英伟达慌了吗？

谷歌关于"算力分工"的预判，正被市场用真金白银证实。Meta和Anthropic这两家AI巨头率先"入伙"，成为TPU v8的首批用户。

Anthropic掌门人Dario Amodei虽未到现场，但特意录视频站台，确认其下一代模型的早期开发，已在谷歌TPU 8t集群上跑了数月。Anthropic更与谷歌强绑定，计划在2027年前向AWS和谷歌云签下数吉瓦级TPU算力协议，提前锁定支撑客户需求爆发所必需的算力资源。

在Agentic AI时代，芯片与软件的边界正在消融。谷歌与Anthropic的关系，早已超越单纯的货架买卖，进化为深度共生的"软件—硅反馈循环"。双方共同研发，让TPU的光学互联元件与MoE（混合专家）架构实现底层原生的基因咬合。这种"软硬一体"调优，直接击穿单次推理的Token成本。

对Anthropic而言，这转化成Claude在商业战场上的成本定价权。对谷歌而言，Anthropic是最顶级的"实战压力测试场"，支撑它在不交"英伟达税"的道路上，拥有一个全球领先的盟友和陪练。

几乎同时，Meta也被曝与谷歌签署价值数十亿美元、为期多年的TPU使用协议。消息披露当天，英伟达股价应声下跌4%。

这是否意味着"反英伟达"的新联盟已经形成？

正方：谷歌正在改写游戏规则

支持这一判断的人指出，谷歌TPU的攻势具有结构性优势。

首先，垂直整合。TPU不单独出售，只通过Google Cloud提供服务。客户使用TPU，往往会自然进入谷歌的全栈AI云生态：从数据处理、模型训练到推理部署，乃至与Workspace等应用集成。谷歌争夺的是AI时代的云入口和定价权。当一家大模型公司将核心训练和推理负载迁至谷歌云，它购买的不仅是算力时间，更是将未来业务的一部分根基埋在了谷歌的土壤里。

其次，成本杠杆。摩根士丹利分析师Brian Nowak指出，谷歌TPU年产量预计在2027年达到500万颗，2028年进一步增长至700万颗。估算每对外销售50万颗TPU，就可能为谷歌带来约130亿美元的新增收入。规模效应下，谷歌有空间持续压低价格，形成对英伟达GPU的"降维打击"。

第三，生态锁定。Anthropic明确表示采用多平台策略，同时在AWS Trainium、Google TPU和NVIDIA GPU上运行Claude。但这种"分散风险"策略，恰恰说明谷歌TPU已成为不可忽视的"第二选择"。一旦客户在TPU上完成核心模型适配，迁移成本将随时间递增。

反方：英伟达的护城河没那么浅

质疑者则认为，市场反应过度，英伟达的地位远未被撼动。

第一，客户动机是"务实结盟"而非"桃园结义"。对于Anthropic和Meta这样的算力"吞金兽"，当前最害怕的两件事是：拿不到足够的算力，或者算力成本压垮商业模式。英伟达GPU虽是行业黄金标准，但其价格、供货周期和潜在供应链风险，迫使顶级客户必须寻找"Plan B"以分散风险、增强议价能力。谷歌TPU是这个"Plan B"，而非"A计划"。

第二，软件生态的差距。CUDA（英伟达推出的并行计算平台和编程模型）经过二十年积累，已成为AI开发的"通用语言"。TPU虽有JAX等框架支持，但开发者迁移成本、工具链成熟度、第三方库兼容性，仍与CUDA存在代际差距。硬件性能再强，软件生态的惯性足以拖慢 adoption（采用）速度。

第三，谷歌自身的矛盾。谷歌既是芯片供应商，又是模型竞争者。Gemini与Claude、Llama存在直接竞争关系。客户将核心负载交给谷歌云，等于把训练数据、模型架构、迭代节奏等敏感信息暴露给竞争对手。这种"供应商—竞争者"双重身份，是谷歌TPU扩张的天然天花板。

第四，历史教训。知名分析师Patrick Moorhead在X上调侃过一段往事：2016年谷歌发布第一代TPU时，他曾放言英伟达要完蛋。结果呢？今天英伟达市值接近5万亿美元。

我的判断：一场"不对称战争"的开始

谷歌TPU 8i的真正威胁，不在于取代英伟达，而在于重新定义竞争维度。

英伟达的强项是"通用性"——一颗芯片打天下，从训练到推理，从数据中心到边缘设备，从AI到图形渲染。这种通用性构建了巨大的规模经济和生态护城河，但也意味着它在任何单一场景都不是"最优解"。

谷歌的打法是"场景穿透"——不为通用而设计，只为推理而生。TPU 8i的3倍SRAM、117%能效提升、软硬一体的MoE优化，都是针对Agent高频交互的"特化武器"。这种"以专克泛"的策略，在Agentic AI爆发的前夜，恰好击中市场痛点。

更关键的是商业模式差异。英伟达卖的是"芯片"，谷歌卖的是"算力时间+云生态"。前者是一次性交易，后者是持续订阅。当推理成本成为AI商业化的生死线，谷歌有动力、也有能力将TPU 8i的性价比优势转化为云市场份额的扩张。

Meta和Anthropic的"入伙"，不是对英伟达的背叛，而是对"单一供应商风险"的对冲。但这种对冲本身，就在削弱英伟达的定价权。当顶级客户开始认真比较"英伟达税"和"谷歌方案"，英伟达就必须在利润率和市场份额之间做更艰难的权衡。

这场战争的终局，可能不是"谁干掉谁"，而是"分层共存"：英伟达守住通用算力的基本盘，谷歌TPU在推理场景切走最大的一块蛋糕，AWS Trainium、微软Maia等玩家各据一方。但无论如何，"万能芯片"的时代正在落幕，"算力分工"的时代已经开启。

谷歌在拉斯维加斯掏出的那两枚芯片，一枚指向训练的效率极限，一枚指向推理的成本底线。而Agentic AI的浪潮，正把后者推向舞台中央。

当每一家AI公司都在为"数字员工"的电费账单发愁时，谁能把单次推理的成本打到最低，谁就能在下一个十年定义AI的商业规则。谷歌押注的是：在这个问题上，专用芯片将击败通用芯片——不是因为它更强，而是因为它更"对"。