拉斯维加斯Google Cloud Next大会,谷歌高级副总裁Amin Vahdat从口袋里掏出两枚芯片——TPU 8t与TPU 8i。这是谷歌TPU家族史上第一次明确"分家"。

一枚专攻训练,一枚专注推理。这个动作为什么重要?因为谷歌率先释放了一个信号:AI算力正在从"万能芯片"的草莽时代,进入流水线式的精细化分工时代。

打开网易新闻 查看精彩图片

为什么非要"分家"?

训练和推理,看似都是AI算力的活儿,本质完全不同。

训练像学霸埋头啃完整个人类图书馆,追求"大力出奇迹",核心是把模型能力"锤炼"出来。推理则像学霸毕业后去大厂当客服,重点不再是谁懂得最多,而是谁回得够快、成本够低、性价比够高。

过去业界默认一颗芯片兼顾两者,是因为AI处在算力早期:模型没那么大,场景没那么多,统一架构至少可以摊薄研发成本。但到了Agentic AI时代,这套逻辑开始失效。训练和推理的诉求,已经变得几乎不可调和。

过去两年,硅谷风向从"大模型狂热"转向"智能体热"。AI不再只是陪你聊天的对话框,而是会接任务、会调工具、会连续干活的"数字员工"。Agent带来的推理事务量,往往是普通聊天机器人的20到50倍。

企业的成本焦虑,迅速从"训练太贵"转向"推理更贵"。

算笔经济账。训练芯片为了追求"大力出奇迹",必须配备极其昂贵的HBM(高带宽内存)。HBM成本约占整块芯片成本的40%-50%,且十分稀缺。拿这种高成本训练芯片,去跑Agent每天几十万次的高频推理请求,相当于用洲际导弹送外卖。

「关键在于如何以最低的每笔交易成本实现最低的响应延迟。交易量正在大幅攀升,而每笔交易的成本必须大幅下降,才能实现规模化。」谷歌云人工智能与计算基础架构副总裁Mark Lohmeyer如此说道。

TPU 8i的"偷家"战术

这场"分家"的核心焦点,正是那枚为"奔跑"而生的TPU 8i。

先看训练用的TPU 8t。单个超级模块集成9600颗芯片,提供121 exaflops算力和2PB共享内存,计算性能较前代提升近3倍;新的Virgo横向扩展架构,让单个集群可调度超过100万颗TPU芯片,能把前沿大模型的训练周期从"数月"压缩到"数周"。在电力成为数据中心核心瓶颈的今天,它能在同等价格下性能提升2.8倍,每瓦性能提升124%。

但真正的变量是TPU 8i。谷歌给它换了个完全不同的"大脑"结构,精准解决Agent时代高频交互的痛点。

第一步,给芯片的"短期记忆"史诗级加强。片上SRAM直接扩容3倍,让芯片随手就能抓到关键数据,不用每走一步都去"翻内存字典",极大减少数据搬运损耗。这3倍SRAM空间,配合288GB的HBM内存,从根源上解决AI思考时的"脑卡顿"。

更硬核的是省电。TPU 8i的能效比较上一代提升117%。这意味着谷歌云可以用同样的一张电费账单,支撑起近乎两倍的推理服务。

TPU 8i为谷歌拿下Agent时代的"商业化入场券"。

据Gartner预测,到2026年底,40%的企业应用将嵌入特定任务的AI Agent。麦肯锡估算,到2030年,由Agentic AI带来的商业机会高达3万亿至5万亿美元。

技术再牛,模型再聪明,如果跑一次推理的成本高到客户掏不起钱,就是空中楼阁。谷歌把芯片一分为二,向整个行业宣告:AI的下半场,谁能把"劳务费"打下来,谁才能笑到最后。

Meta、Anthropic"入伙",英伟达慌了吗?

谷歌关于"算力分工"的预判,正被市场用真金白银证实。Meta和Anthropic这两家AI巨头率先"入伙",成为TPU v8的首批用户。

Anthropic掌门人Dario Amodei虽未到现场,但特意录视频站台,确认其下一代模型的早期开发,已在谷歌TPU 8t集群上跑了数月。Anthropic更与谷歌强绑定,计划在2027年前向AWS和谷歌云签下数吉瓦级TPU算力协议,提前锁定支撑客户需求爆发所必需的算力资源。

在Agentic AI时代,芯片与软件的边界正在消融。谷歌与Anthropic的关系,早已超越单纯的货架买卖,进化为深度共生的"软件—硅反馈循环"。双方共同研发,让TPU的光学互联元件与MoE(混合专家)架构实现底层原生的基因咬合。这种"软硬一体"调优,直接击穿单次推理的Token成本。

对Anthropic而言,这转化成Claude在商业战场上的成本定价权。对谷歌而言,Anthropic是最顶级的"实战压力测试场",支撑它在不交"英伟达税"的道路上,拥有一个全球领先的盟友和陪练。

几乎同时,Meta也被曝与谷歌签署价值数十亿美元、为期多年的TPU使用协议。消息披露当天,英伟达股价应声下跌4%。

这是否意味着"反英伟达"的新联盟已经形成?

正方:谷歌正在改写游戏规则

支持这一判断的人指出,谷歌TPU的攻势具有结构性优势。

首先,垂直整合。TPU不单独出售,只通过Google Cloud提供服务。客户使用TPU,往往会自然进入谷歌的全栈AI云生态:从数据处理、模型训练到推理部署,乃至与Workspace等应用集成。谷歌争夺的是AI时代的云入口和定价权。当一家大模型公司将核心训练和推理负载迁至谷歌云,它购买的不仅是算力时间,更是将未来业务的一部分根基埋在了谷歌的土壤里。

其次,成本杠杆。摩根士丹利分析师Brian Nowak指出,谷歌TPU年产量预计在2027年达到500万颗,2028年进一步增长至700万颗。估算每对外销售50万颗TPU,就可能为谷歌带来约130亿美元的新增收入。规模效应下,谷歌有空间持续压低价格,形成对英伟达GPU的"降维打击"。

第三,生态锁定。Anthropic明确表示采用多平台策略,同时在AWS Trainium、Google TPU和NVIDIA GPU上运行Claude。但这种"分散风险"策略,恰恰说明谷歌TPU已成为不可忽视的"第二选择"。一旦客户在TPU上完成核心模型适配,迁移成本将随时间递增。

反方:英伟达的护城河没那么浅

质疑者则认为,市场反应过度,英伟达的地位远未被撼动。

第一,客户动机是"务实结盟"而非"桃园结义"。对于Anthropic和Meta这样的算力"吞金兽",当前最害怕的两件事是:拿不到足够的算力,或者算力成本压垮商业模式。英伟达GPU虽是行业黄金标准,但其价格、供货周期和潜在供应链风险,迫使顶级客户必须寻找"Plan B"以分散风险、增强议价能力。谷歌TPU是这个"Plan B",而非"A计划"。

第二,软件生态的差距。CUDA(英伟达推出的并行计算平台和编程模型)经过二十年积累,已成为AI开发的"通用语言"。TPU虽有JAX等框架支持,但开发者迁移成本、工具链成熟度、第三方库兼容性,仍与CUDA存在代际差距。硬件性能再强,软件生态的惯性足以拖慢 adoption(采用)速度。

第三,谷歌自身的矛盾。谷歌既是芯片供应商,又是模型竞争者。Gemini与Claude、Llama存在直接竞争关系。客户将核心负载交给谷歌云,等于把训练数据、模型架构、迭代节奏等敏感信息暴露给竞争对手。这种"供应商—竞争者"双重身份,是谷歌TPU扩张的天然天花板。

第四,历史教训。知名分析师Patrick Moorhead在X上调侃过一段往事:2016年谷歌发布第一代TPU时,他曾放言英伟达要完蛋。结果呢?今天英伟达市值接近5万亿美元。

我的判断:一场"不对称战争"的开始

谷歌TPU 8i的真正威胁,不在于取代英伟达,而在于重新定义竞争维度。

英伟达的强项是"通用性"——一颗芯片打天下,从训练到推理,从数据中心到边缘设备,从AI到图形渲染。这种通用性构建了巨大的规模经济和生态护城河,但也意味着它在任何单一场景都不是"最优解"。

谷歌的打法是"场景穿透"——不为通用而设计,只为推理而生。TPU 8i的3倍SRAM、117%能效提升、软硬一体的MoE优化,都是针对Agent高频交互的"特化武器"。这种"以专克泛"的策略,在Agentic AI爆发的前夜,恰好击中市场痛点。

更关键的是商业模式差异。英伟达卖的是"芯片",谷歌卖的是"算力时间+云生态"。前者是一次性交易,后者是持续订阅。当推理成本成为AI商业化的生死线,谷歌有动力、也有能力将TPU 8i的性价比优势转化为云市场份额的扩张。

Meta和Anthropic的"入伙",不是对英伟达的背叛,而是对"单一供应商风险"的对冲。但这种对冲本身,就在削弱英伟达的定价权。当顶级客户开始认真比较"英伟达税"和"谷歌方案",英伟达就必须在利润率和市场份额之间做更艰难的权衡。

这场战争的终局,可能不是"谁干掉谁",而是"分层共存":英伟达守住通用算力的基本盘,谷歌TPU在推理场景切走最大的一块蛋糕,AWS Trainium、微软Maia等玩家各据一方。但无论如何,"万能芯片"的时代正在落幕,"算力分工"的时代已经开启。

谷歌在拉斯维加斯掏出的那两枚芯片,一枚指向训练的效率极限,一枚指向推理的成本底线。而Agentic AI的浪潮,正把后者推向舞台中央。

当每一家AI公司都在为"数字员工"的电费账单发愁时,谁能把单次推理的成本打到最低,谁就能在下一个十年定义AI的商业规则。谷歌押注的是:在这个问题上,专用芯片将击败通用芯片——不是因为它更强,而是因为它更"对"。

问题是,当亚马逊、微软、甚至苹果都推出自己的"推理专用芯片"时,谷歌的"先发优势"能维持多久?而英伟达,又会在什么时候亮出它的反击武器?