打开网易新闻 查看精彩图片

新智元报道

编辑:定慧

【新智元导读】英伟达在聚光灯下狂飙,谷歌却在幕后悄悄造出自己的AI基建帝国系统。当别人还在抢GPU时,它早已自给自足、闭环生长——闷声干大事,从未如此谷歌。

英伟达明修栈道,谷歌暗渡陈仓。

当你回头一看,谷歌在AI基础设施的优势已经无法阻挡。

打开网易新闻 查看精彩图片

这几天,谷歌终于把憋了很久的大招放出来了,CEO劈柴官宣了自研第七代TPU Ironwood正式商用。

打开网易新闻 查看精彩图片

这是谷歌第七代TPU,单颗算力4614 TFLOPS(FP8精度),192GB的HBM3E内存,带宽高达7.37 TB/s。

与上一代TPU v5p相比峰值性能提升10倍!

打开网易新闻 查看精彩图片

对于Google Cloud客户,Ironwood根据工作负载需求提供两种尺寸:256芯片配置和9216芯片配置。

也就是一个pod可以最多塞下9216个TPU,总算力达到了惊人的42.5 ExaFLOPS。

与之相比英伟达目前主推的的GB300 NVL72系统只有0.36 ExaFLOPS。

这就是为啥Anthropic直接买了100万颗TPU的根本原因。

谷歌才是那个真正低调发财的公司,有人总结AI价值链上所有公司涉足的领域。

打开网易新闻 查看精彩图片

谷歌是唯一一家,没有之一,全栈人工智能公司:数据→算法→硬件→云服务器。

它使用自己的数据来训练自己的算法;这些算法在部署在自己的云上的自己的芯片上运行;然后开发了自己的应用程序。

如果说现在谷歌唯一的弱点,那可能就是「苹果」,准确的说,是客户端设备,手机。

虽然安卓系统是谷歌的,但是偏偏谷歌没有自己的手机(如果手机也有,谷歌称得上地球上最垄断的公司,也许没有之一。)

虽然Pixel系列出货量未能排在三星和国产等安卓机前面,但是用过Pixel的人都说好。

打开网易新闻 查看精彩图片

谷歌TPU十年进化

谷歌TPU,全称张量处理单元 (Tensor Processing UnitT), 从早期几代主要作为内部优化工具,到最新的迭代已构成一个成熟且极具竞争力的产品组合。

当英伟达在横向扩展(scale-out) 加速器市场占据主导地位时,谷歌已经构建了全球唯一一个专为训练和运行前沿模型而设计的、具有高容错性的超大规模系统。

2013年,谷歌面临一个关键时刻。

公司意识到,神经网络日益增长的计算需求(尤其是在语音识别领域)可能迫使他们将数据中心的规模翻倍

这一预测使AI计算不再是一个机遇,而是对运营支出 (OpEx) 的生存威胁。

尽管谷歌早在2006年就考虑过构建专用集成电路 (ASIC),但直到2013年,这才真正成为一项迫在眉睫的任务。

TPU v1 的开发周期之快是前所未有的:从设计、验证、制造到部署至数据中心仅用了15个月!

TPU v1 于2015年在谷歌内部署,并于2016年的Google I/O大会上公开发布。

打开网易新闻 查看精彩图片

TPU v1的诞生过程极不寻常。

它并非一个循序渐进的研发项目,更像是一项紧急的「救火」措施。

据报道,谷歌在构建芯片的同时才开始招聘团队,这表明该项目风险极高,但也具有最高优先级。

这种「冲刺」塑造了TPU的DNA:实用主义和领域特定优化压倒一切。

谷歌为了成功,牺牲了所有与神经网络无关的功能。

当AI由神经网络组成,TPU就是AI而诞生的。

架构哲学,摒弃通用性

谷歌TPU v1是一款「仅限推理」的ASIC,专为TensorFlow框架设计。 (另一个深度学习框架就是Meta的PyTorch)

它与CPU和GPU的关键区别在于:TPU专为高吞吐量的低精度计算(如8位整数)而设计。

与CPU(通用处理器)和GPU(当时主要为图形渲染优化)不同,TPU彻底摒弃了非必需的硬件,如缓存、乱序执行和纹理映射单元。

打开网易新闻 查看精彩图片

该芯片的核心是一个庞大的矩阵乘法单元,拥有 65,536 个 (256x256) 8位MAC单元,峰值性能达到每秒92万亿次操作 (TOPS)。

v1 采用了28nm工艺,时钟频率为700MHz,而其热设计功耗 (TDP) 仅为40W,远低于同期的GPU。

它被设计为一块PCIe卡,可安装在SATA硬盘插槽中,以便快速集成到现有服务器。

早期胜利,AlphaGo与惊人的能效比

2016年,DeepMind的AlphaGo击败世界围棋冠军李世石,这一历史性事件的背后正是TPU v1在提供算力支持。

2017年发表的一篇具有里程碑意义的论文详细阐述了其性能。

在谷歌的生产工作负载(占数据中心NN推理需求的95%)中,TPU v1 的速度比同期的Intel Haswell CPU和英伟达 K80 GPU快15至30倍

打开网易新闻 查看精彩图片

然而,更关键的指标是能效比 (TOPS/Watt),TPU v1 比CPU和GPU高出30至80倍

这一数据揭示了谷歌从一开始的战略意图。

在超大规模数据中心的环境中,成本不仅由芯片的采购成本 (CapEx) 决定,更由其运行的电力成本 (OpEx) 决定。

TPU v1 的胜利不仅在于速度,更在于它解决了AI计算的总体拥有成本 (TCO) 问题。

中期规模化演进

TPU v1 验证了ASIC的概念,但其「仅限推理」的特性意味着谷歌在模型训练方面仍依赖英伟达。

TPU v2 (2017年推出) 标志着谷歌向训练领域的战略转向。

关键的架构转变是:从8位整数计算转向浮点计算,特别是引入并推广了由Google Brain发明的 bfloat16 (bf16) 格式。

打开网易新闻 查看精彩图片

bfloat16 是一个巧妙的工程妥协:它保留了与32位浮点数 (FP32) 相同的8位指数,但将尾数截短至7位。

这一设计在大幅降低内存占用和带宽需求的同时,保留了训练所需的动态范围,有效防止了梯度消失或爆炸。

规格方面,v2采用16nm工艺,搭载16GB高带宽内存 (HBM)(v1为DDR3),内存带宽飙升至600 GB/s,算力达到45 TFLOPS。

TPU v2引入了Pod(集群)概念,但在此之前与之后,GPU长期以集群/超算形态扩展

英伟达随后在2018年推出DGX POD参考架构,2019 年起推出DGX SuperPOD并在 2020–2025 年持续更新(H200/GB200 等版本),这些都属于标准化的GPU集群解决方案。

打开网易新闻 查看精彩图片

谷歌不再将TPU视为独立的加速器,而是设计了4芯片模块(180 TFLOPS)。

64个这样的模块被组装成一个256芯片的Pod,总性能达到11.5 PFLOPS 6。

这是TPU历史上最重要的时刻之一。

谷歌停止了在「芯片竞赛」中追赶,转而开辟了「系统竞赛」的新战场。

TPU v3 (2018年) 延续了这一思路。

芯片性能提升至123T-ops,HBM增加到32GB。更重要的是,Pod的规模扩大了4倍,达到1024个芯片,使每个Pod的性能增加了8倍。

为了应对急剧增加的功率密度,液冷技术被引入并成为TPU Pod的标准配置,这使谷歌能够进一步挑战性能极限。

打开网易新闻 查看精彩图片

到了第四代,TPU v4 (2021)可以和与A100并驾齐驱,实现规模化领先。

TPU v4(2021年)是一次重大飞跃。采用7nm工艺,性能提升至275T-ops(T-ops 是 tera-operations per second的缩写,表示每秒执行的万亿次操作。)。

Pod规模再次扩大,达到4096个芯片。

关键改进在于互连:v4 芯片的互连带宽达到了上一代的10倍。

到2021年,TPU不再只是一个「高TCO效益」的选项。

它在原始性能上已经可以与英伟达的最佳产品正面竞争。

现代TPU产品,多元化和专业化

TPU v5 的发布标志着谷歌从单一架构转向成熟、多元化的产品线。

v5有两个版本TPU v5e(Efficiency)和TPU v5p(Performance),v5e针对主流推理、微调和中小型训练负载设计;TPU v5p是训练谷歌Gemini 1.0模型所使用的核心系统。

与TPU v4相比,TPU v5p的FLOPS提高了2倍以上,高带宽内存(HBM)提高了3倍

打开网易新闻 查看精彩图片

TPU v5p专为性能、灵活性和规模而设计,可以训练大型LLM模型,速度比上一代TPU v4快2.8倍。

TPU v6,代号Trillium,于2024年5月宣布,并于同年10月提供预览。

v6性能实现了918TFLOPS和1836TOPS (Int8) 的巨大飞跃。

这比v5e高出4.7倍,比v5p高出约2倍。规格32GB HBM,1600 GB/s带宽。

打开网易新闻 查看精彩图片

v6引入了关键架构:第三代SparseCore

SparseCore 的引入表明谷歌正在解决Transformer模型中的特定瓶颈。

SparseCore是一种专门用于处理嵌入 (embeddings) 的加速器。

嵌入在排名和推荐模型中普遍存在,并且对传统的MXU来说计算效率低下。

Trillium 是一款专为训练Transformer和MoE(Mixture of Experts)模型而打造的芯片。

谷歌的Gemini 2.0是在Trillium (v6) 上训练的

打开网易新闻 查看精彩图片

谷歌CEO劈柴明确表示:「TPU为Gemini 2.0的训练和推理提供了100%的动力」。

TPU v7推理时代的专业芯片

TPU v7,代号Ironwood,于2025年4月发布。

Ironwood是首款专为推理而设计的TPU,而Trillium则是训练冠军。

打开网易新闻 查看精彩图片

在战略和资本层面,这反映了一种钟摆策略。谷歌使用v6 (Trillium) 来构建前沿模型 (CapEx投入),现在发布v7 (Ironwood) 来规模化服务这些模型 (OpEx消耗)。

Ironwood 旨在优化推理的TCO。(毕竟我们人类已经进入AI推理时代)

Ironwood达到4614 TFLOPS (FP8),比Trillium的Int8性能高出2.5倍以上。能效比是Trillium的2倍

打开网易新闻 查看精彩图片

Ironwood将在未来几周年内全面上市。市场对Ironwood的早期反响极为热烈。

比如,谷歌列出了一些已经下订单的企业,Anthropic、Lightricks、essential AI。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

CPU也造,还有最新虚拟机

除了TPU,谷歌还造了自己的第一颗通用处理器Axion。

用谷歌自己的话:构建和运维现代应用既需要高度专业化的加速器,也离不开强大高效的通用计算能力。

打开网易新闻 查看精彩图片

基于这颗CPU,谷歌还发布了最新的Axion虚拟机,N4A。

基于Arm架构的全新Axion实例现已开放预览。

与当前同代基于x86架构的虚拟机相比,N4A可提供高达2倍的价格性能优势。

除了虚拟机,还推出了裸金属实例,C4A。

C4A裸金属实例(即将进入预览阶段)是谷歌首款基于Arm架构的裸金属实例,为专用工作负载提供专属物理服务器,适用于Android开发、汽车车载系统、严格许可要求的软件、规模化测试农场或运行复杂模拟等场景。

谷歌的云服务在2025年3季度处于世界第3,前面是亚马逊和微软。

打开网易新闻 查看精彩图片

正如文章开头所说,谷歌是现在AI领域唯一一家全栈技术公司,数据、算法、模型、云服务、CPU、GPU,需要什么就自己造什么。

打开网易新闻 查看精彩图片

虽然在很多时候,谷歌没有排在第一,但是在任何领域,谷歌都榜上有名。

也许这才是真正的闷声发大财。

打开网易新闻 查看精彩图片

2025年10月,Anthropic宣布扩大合作,获得高达100万个TPU芯片的使用权。

该协议价值数百亿美元,并将在2026年提供超过1吉瓦 (Gigawatt)的计算容量。

虽然全球的聚光灯几乎都照在英伟达身上,但在聚光之外,谷歌的AI基础设施版图已经悄然成形,甚至形成了自己独立的「气候系统」。

谷歌给自己这套系统起了个名字:AI Hypercomputer。

打开网易新闻 查看精彩图片

英伟达是舞台中央的光芒,谷歌则隐藏在大幕之后。

当所有AI公司都在抢购H系列GPU时,谷歌早已在自己的TPU集群上完成了自我造血循环——训练、部署、推理、优化,全都在自己的系统内部完成。

谷歌AI基金(Google AIInfrastructureFund)便是在这种体系下自然诞生的产物。

它不仅是投资基金,更像是一个生态基金池,用以扶持所有基于谷歌云与TPU生态的AI公司。

打开网易新闻 查看精彩图片

Anthropic、Cohere、Character.AI、Essential AI……

这些名字在外界看来是独立的创业公司,但它们在算力与模型底座上,都深度绑定谷歌的TPU集群与Gemini模型家族。

换句话说,谷歌的AI基金并非简单的「投资人」,而是用资本作为粘合剂,将算力、云服务与生态绑定在一起

当这些公司成长、融资、甚至上市时,谷歌都在背后分得红利。

这就是谷歌真正的护城河:

不是某一代TPU芯片的领先;

也不是Gemini模型的参数量;(Gemini 3马上要发布了)

而是一个可自我进化、自我繁殖的AI生态系统

在未来的几年中,当市场仍在讨论GPU的供需、算力的溢价、芯片的带宽时,谷歌的TPU与AI基金正以稳健的方式持续扩张。

它的节奏不快,但势能深厚,气候已成。

参考资料:

https://cloud.google.com/blog/products/compute/ironwood-tpus-and-new-axion-based-vms-for-your-ai-workloads