机器之心编辑部
谷歌的 AI 芯片战略路线迎来重大转向!
在刚刚过去的 Google Cloud Next 2026 大会上,谷歌正式对外发布第八代张量处理器(TPU)。与以往不同的是,这次亮点之一在于,谷歌首次针对 AI 模型训练与推理任务,分别推出 TPU 8t 与 TPU 8i 两款独立芯片产品。
其中,专注于 AI 模型训练任务的 TPU 8t,在大规模、高计算需求的训练工作负载中表现出色,设计上具备更大的计算吞吐量和更多的扩展带宽。相较于去年 11 月发布的第七代 Ironwood TPU,性能提升 2.7 倍。
聚焦于推理 / 实时执行任务的 TPU 8i,设计时更多考虑了内存带宽,以便处理最为延迟敏感的推理工作负载,因为智能体在大规模交互时即使是微小的效率问题也会被放大。
值得注意的是,与上一代相比,TPU 8i 单芯片集成了 384MB 的静态随机存取存储器(SRAM),容量是其 3 倍,因此可以完全在硅片上容纳更大的 KV 缓存,从而显著减少长上下文解码期间内核的空闲时间。性能提升 80% ,尤其是在大规模 MoE 模型的低延迟目标下。
谷歌高级副总裁兼 AI 基础设施首席技术专家 Amin Vahdat 在官方博客中称,在智能体时代,模型必须解决问题,执行多步工作流,并从自己的行为中不断学习。这意味着对基础设施提出了新的高要求,TPU 8t 和 TPU 8i 两款芯片旨在应对最具挑战性的 AI 工作负载,并适应不断演化的大规模模型架构。
目前,这两款新品还没有正式对外,官方宣称,将在今年晚些时候开始向谷歌云客户提供。
芯片一经发布,谷歌 CEO 桑达尔・皮查伊(Sundar Pichai)也在 X 上发文宣传自家新品:「TPU 8t,优化训练;TPU 8i,优化推理。看起来真不错!」
在帖文下,引来一众网友热议。
有网友认为,此次谷歌将TPU分为专门的训练芯片和推理芯片,似乎是在承认当前AI算力基础设施的瓶颈已经转移,从FLOPs转移到了内存带宽和延迟上。
而考虑到推理任务的预期规模,如果工作负载有所差异,(为了优化性能和成本),针对每个任务定制硬件,从成本上看也是合理的选择。
「这可能类似于电视中的视频解码芯片,与能够进行视频编码的芯片相比,解码芯片通常不会非常便宜或高效。」
大多数网友则认为,谷歌的这款新芯片一出,意味着 AI 芯片市场竞争将愈加激烈,尤其是对英伟达的「冲击」。
一位网友调侃道,「谷歌正在发布新的 TPU。英伟达,你得做更多的工作了。」
诚然,从 2015 年开始,谷歌就在使用自研处理器来运行 AI 模型,并在 2018 年开始向谷歌云客户出租芯片,试图通过构建这种高度集成、针对特定任务优化的自有芯片生态,进一步减少对外部供应商,尤其英伟达的依赖,打造更具自主可控的 AI 基础设施。
但不得不承认,谷歌的芯片并不能对英伟达构成全面威胁,或者说,至少在当前阶段还不是。与微软、亚马逊之类的云服务巨头一样,谷歌使用这些芯片是为了补充其基础设施中基于英伟达的系统,而不是彻底取代英伟达。
据了解,谷歌还承诺,其云服务将在今年晚些时候提供英伟达的最新芯片 ——Vera Rubin。
谷歌在官方博客中详细介绍了两款芯片的设计细节,下面来了解一下。
TPU 8t:训练动力引擎
谷歌称,TPU 8t 是为将前沿模型的开发周期从几个月缩短到几周而设计的。通过平衡最高计算吞吐量、共享内存和芯片间带宽,同时保证最佳的功率效率和计算时间,谷歌打造了一个系统,使得每个超级节点的计算性能比上一代提高近 3 倍,从而加速创新,确保客户继续引领行业步伐。
- 大规模扩展:单个 TPU 8t 超级节点现在能够扩展到 9600 个芯片和 2 个 PB 的共享高带宽内存,内存带宽是上一代的两倍。这种架构提供 121 ExaFlops 的计算能力,支持最复杂的模型使用单一的大规模内存池;
- 最大化利用率:通过集成 10 倍更快的存储访问,并结合 TPUDirect 将数据直接加载到 TPU,TPU 8t 有助于确保端到端系统的最大利用;
- 近线性扩展:新 Virg 网络与 JAX 和 Pathways 软件结合,意味着 TPU 8t 可以提供高达百万芯片的近线性扩展。
此外,除了原始性能,TPU 8t 还针对超过 97% 的「良好利用率」进行优化,这是衡量有效计算时间的指标,涵盖了实时遥测、自动故障检测和重定向等多项可靠性功能。
具体来看,相较于上一代 TPU,TPU 8t 的关键提升主要包括以下几个方面:
- SparseCore 优势:TPU 8t 的核心是 SparseCore,这是一种专门的加速器,旨在处理嵌入查找的非规律内存访问模式。Matrix Multiply Unit(MXU)处理矩阵运算,而 SparseCore 则卸载了数据依赖的所有聚集操作,以及其他集体操作,防止了通常困扰通用芯片的零操作瓶颈。
- VPU/MXU 重叠与平衡扩展:TPU 8t 旨在最大化已提供的 FLOP 使用率,通过实现更平衡的向量处理单元(VPU)扩展,架构最小化了暴露的向量操作时间。这使得量化、softmax 和 layernorms 可以更好地与 MXU 中的矩阵乘法重叠,帮助芯片保持忙碌,而不是等待顺序向量任务。
- 原生 FP4:TPU 8t 引入了原生的 4 位浮点数(FP4)以克服内存带宽瓶颈,在保持大模型准确性的同时,提升了 MXU 的吞吐量,即使在较低精度量化下也能维持准确性。通过减少每个参数的位数,该平台最小化了数据传输的能耗,并允许更大的模型层在本地硬件缓存中适配,从而实现峰值计算利用率。
TPU 8t ASIC 框图
TPU 8i:推理引擎
谷歌认为,在智能体时代,用户希望能够提出问题、委派任务并获得结果,而TPU 8i 正是被设计来处理许多专业智能体的复杂协作和迭代工作,智能体往往在复杂的工作流中「群集」起来,以提供解决方案和洞察力。
谷歌通过四项关键创新,重新设计了堆栈,以消除「等待室」效应:
- 突破「内存墙」:为了防止处理器闲置,TPU 8i 配备了 288 GB 高带宽内存,并配有 384 MB 的片上 SRAM,比上一代多出 3 倍,确保模型的活跃工作集完全保存在芯片内;
- Axion 动力高效性:将每个服务器的物理 CPU 主机数量翻倍,采用了基于 Axion Arm 的定制 CPU。通过使用非统一内存体系结构(NUMA)进行隔离,优化了整个系统的性能;
- 扩展 MoE 模型:对于 MoE 模型,将互联带宽提高至 19.2Tb/s。新的 Boardfly 架构将最大网络直径缩短超过 50%,确保系统作为一个统一的低延迟单元运行;
TPU 8i 层次化的 Boardfly 拓扑结构,从四个完全连接的芯片构建起一个基础单元,逐步发展为一个完全连接的八块板组成的集群,最终将 36 个这样的集群完全连接成一个 TPU 8i 超级节点。
- 消除延迟:新片上集体加速引擎(CAE)卸载全局操作,将片上延迟减少了最多 5 倍,最大限度地减少了延迟。每个集体操作的低延迟意味着等待时间更少,从而直接提高了吞吐量,满足了同时运行数百万个智能体所需的性能。
这些创新使得,在每美元的价位下,性能提升了 80%,也就是说,企业能够以相同的成本为更多客户提供服务。
TPU 8i ASIC 框图
https://techcrunch.com/2026/04/22/google-cloud-next-new-tpu-ai-chips-compete-with-nvidia/
https://blog.google/innovation-and-ai/infrastructure-and-cloud/google-cloud/eighth-generation-tpu-agentic-era/
https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive
热门跟贴