「我2016年就说过谷歌TPU会是英伟达的坏消息。」芯片分析师Patrick Moore在X上发了这条半开玩笑的帖子,配图是英伟达现在接近5万亿市值的股价截图。八年过去,这个预测显然没应验。但谷歌没放弃——这周,它把第八代TPU直接拆成了两个芯片。

一块练模型,一块跑业务

打开网易新闻 查看精彩图片

谷歌云周三发布的第八代张量处理单元(TPU)不再是一款通吃的产品。TPU 8t专攻模型训练,TPU 8i负责推理——也就是用户提交提示词后,模型实际干活的那部分。

这个分工本身就很耐人寻味。训练是一次性投入,推理是持续性消耗。谷歌把产品线切开,等于在说:这两个场景的需求差异,已经大到需要专门硬件来伺候了。

官方给出的性能数字很具体:训练速度最高提升3倍,每美元性能提升80%,单集群能调动100万块以上TPU协同工作。翻译成人话:同样的活,用电更少,花钱更少,速度更快。

谷歌坚持叫TPU不叫GPU,是因为这批低功耗定制芯片从一开始就叫这个名字。Tensor这个前缀,比英伟达的通用图形处理器早了几年押注专用架构。

为什么不直接干掉英伟达?

这里有个反直觉的事实:谷歌云今年晚些时候会上架英伟达最新芯片Vera Rubin。自己造芯的同时,还在给竞争对手带货。

微软、亚马逊、谷歌,三大云厂商都在走这条路——自研芯片补充英伟达方案,而非取而代之。现状是,赌英伟达输钱的人,过去八年基本都亏了。

但谷歌的算盘可能更长远。企业把AI需求迁到云端,再把应用移植到这些定制芯片上,长期来看,对英伟达的依赖确实可能下降。只是这个「长期」有多长,没人说得准。

英伟达的应对逻辑也很直白:谷歌云业务增长,最终会变成更多GPU订单——哪怕部分工作负载跑在谷歌自家芯片上。这个假设成立的前提,是训练端的需求持续膨胀,而推理端的替代方案始终无法完全闭环。

拆分背后的用户逻辑

把芯片拆开卖,本质是承认一件事:AI基础设施的客户,已经分化为两种完全不同的物种。

一类在做基础模型,需要暴力堆算力,追求训练效率的每一个百分点。另一类在部署应用,关心的是响应延迟和单token成本,对峰值算力没那么敏感。

谷歌用两款产品分别报价,等于让客户不再为不需要的能力买单。这对25-40岁的技术决策者很友好——预算审批时,终于能说清楚钱花在哪儿了。

80%的每美元性能提升,这个数字放在CFO面前,比任何技术参数都管用。而100万+TPU集群的能力,更像是给超大规模训练客户的一颗定心丸:你们不会撞上天花板。

Patrick Moore的玩笑背后,藏着整个行业的困惑。专用芯片和通用芯片的边界在哪里?云厂商的自研路线能走多远?这些问题没有标准答案,但谷歌选择用产品迭代来投票——不是二选一,而是两个都要,还要切得更细。

对企业用户来说,这意味着选型复杂度上升,但议价空间也在扩大。当谷歌和英伟达同时在货架上,价格和服务条款才是真正的战场。