谷歌第八代TPU首推「训推双芯」：8t专攻训练，8i「死磕」推理|内存|处理器|推理|知名企业|英伟达|谷歌

机器之心编辑部

谷歌的 AI 芯片战略路线迎来重大转向！

在刚刚过去的 Google Cloud Next 2026 大会上，谷歌正式对外发布第八代张量处理器（TPU）。与以往不同的是，这次亮点之一在于，谷歌首次针对 AI 模型训练与推理任务，分别推出 TPU 8t 与 TPU 8i 两款独立芯片产品。

其中，专注于 AI 模型训练任务的 TPU 8t，在大规模、高计算需求的训练工作负载中表现出色，设计上具备更大的计算吞吐量和更多的扩展带宽。相较于去年 11 月发布的第七代 Ironwood TPU，性能提升 2.7 倍。

聚焦于推理 / 实时执行任务的 TPU 8i，设计时更多考虑了内存带宽，以便处理最为延迟敏感的推理工作负载，因为智能体在大规模交互时即使是微小的效率问题也会被放大。

值得注意的是，与上一代相比，TPU 8i 单芯片集成了 384MB 的静态随机存取存储器（SRAM），容量是其 3 倍，因此可以完全在硅片上容纳更大的 KV 缓存，从而显著减少长上下文解码期间内核的空闲时间。性能提升 80% ，尤其是在大规模 MoE 模型的低延迟目标下。

谷歌高级副总裁兼 AI 基础设施首席技术专家 Amin Vahdat 在官方博客中称，在智能体时代，模型必须解决问题，执行多步工作流，并从自己的行为中不断学习。这意味着对基础设施提出了新的高要求，TPU 8t 和 TPU 8i 两款芯片旨在应对最具挑战性的 AI 工作负载，并适应不断演化的大规模模型架构。

目前，这两款新品还没有正式对外，官方宣称，将在今年晚些时候开始向谷歌云客户提供。

芯片一经发布，谷歌 CEO 桑达尔・皮查伊（Sundar Pichai）也在 X 上发文宣传自家新品：「TPU 8t，优化训练；TPU 8i，优化推理。看起来真不错！」

在帖文下，引来一众网友热议。

有网友认为，此次谷歌将TPU分为专门的训练芯片和推理芯片，似乎是在承认当前AI算力基础设施的瓶颈已经转移，从FLOPs转移到了内存带宽和延迟上。

而考虑到推理任务的预期规模，如果工作负载有所差异，（为了优化性能和成本），针对每个任务定制硬件，从成本上看也是合理的选择。

「这可能类似于电视中的视频解码芯片，与能够进行视频编码的芯片相比，解码芯片通常不会非常便宜或高效。」

大多数网友则认为，谷歌的这款新芯片一出，意味着 AI 芯片市场竞争将愈加激烈，尤其是对英伟达的「冲击」。

一位网友调侃道，「谷歌正在发布新的 TPU。英伟达，你得做更多的工作了。」

诚然，从 2015 年开始，谷歌就在使用自研处理器来运行 AI 模型，并在 2018 年开始向谷歌云客户出租芯片，试图通过构建这种高度集成、针对特定任务优化的自有芯片生态，进一步减少对外部供应商，尤其英伟达的依赖，打造更具自主可控的 AI 基础设施。

但不得不承认，谷歌的芯片并不能对英伟达构成全面威胁，或者说，至少在当前阶段还不是。与微软、亚马逊之类的云服务巨头一样，谷歌使用这些芯片是为了补充其基础设施中基于英伟达的系统，而不是彻底取代英伟达。

据了解，谷歌还承诺，其云服务将在今年晚些时候提供英伟达的最新芯片 ——Vera Rubin。

谷歌在官方博客中详细介绍了两款芯片的设计细节，下面来了解一下。

TPU 8t：训练动力引擎

谷歌称，TPU 8t 是为将前沿模型的开发周期从几个月缩短到几周而设计的。通过平衡最高计算吞吐量、共享内存和芯片间带宽，同时保证最佳的功率效率和计算时间，谷歌打造了一个系统，使得每个超级节点的计算性能比上一代提高近 3 倍，从而加速创新，确保客户继续引领行业步伐。

大规模扩展：单个 TPU 8t 超级节点现在能够扩展到 9600 个芯片和 2 个 PB 的共享高带宽内存，内存带宽是上一代的两倍。这种架构提供 121 ExaFlops 的计算能力，支持最复杂的模型使用单一的大规模内存池；
最大化利用率：通过集成 10 倍更快的存储访问，并结合 TPUDirect 将数据直接加载到 TPU，TPU 8t 有助于确保端到端系统的最大利用；
近线性扩展：新 Virg 网络与 JAX 和 Pathways 软件结合，意味着 TPU 8t 可以提供高达百万芯片的近线性扩展。

此外，除了原始性能，TPU 8t 还针对超过 97% 的「良好利用率」进行优化，这是衡量有效计算时间的指标，涵盖了实时遥测、自动故障检测和重定向等多项可靠性功能。

具体来看，相较于上一代 TPU，TPU 8t 的关键提升主要包括以下几个方面：

SparseCore 优势：TPU 8t 的核心是 SparseCore，这是一种专门的加速器，旨在处理嵌入查找的非规律内存访问模式。Matrix Multiply Unit（MXU）处理矩阵运算，而 SparseCore 则卸载了数据依赖的所有聚集操作，以及其他集体操作，防止了通常困扰通用芯片的零操作瓶颈。
VPU/MXU 重叠与平衡扩展：TPU 8t 旨在最大化已提供的 FLOP 使用率，通过实现更平衡的向量处理单元（VPU）扩展，架构最小化了暴露的向量操作时间。这使得量化、softmax 和 layernorms 可以更好地与 MXU 中的矩阵乘法重叠，帮助芯片保持忙碌，而不是等待顺序向量任务。
原生 FP4：TPU 8t 引入了原生的 4 位浮点数（FP4）以克服内存带宽瓶颈，在保持大模型准确性的同时，提升了 MXU 的吞吐量，即使在较低精度量化下也能维持准确性。通过减少每个参数的位数，该平台最小化了数据传输的能耗，并允许更大的模型层在本地硬件缓存中适配，从而实现峰值计算利用率。

TPU 8t ASIC 框图

TPU 8i：推理引擎

谷歌认为，在智能体时代，用户希望能够提出问题、委派任务并获得结果，而TPU 8i 正是被设计来处理许多专业智能体的复杂协作和迭代工作，智能体往往在复杂的工作流中「群集」起来，以提供解决方案和洞察力。

谷歌通过四项关键创新，重新设计了堆栈，以消除「等待室」效应：

突破「内存墙」：为了防止处理器闲置，TPU 8i 配备了 288 GB 高带宽内存，并配有 384 MB 的片上 SRAM，比上一代多出 3 倍，确保模型的活跃工作集完全保存在芯片内；
Axion 动力高效性：将每个服务器的物理 CPU 主机数量翻倍，采用了基于 Axion Arm 的定制 CPU。通过使用非统一内存体系结构（NUMA）进行隔离，优化了整个系统的性能；
扩展 MoE 模型：对于 MoE 模型，将互联带宽提高至 19.2Tb/s。新的 Boardfly 架构将最大网络直径缩短超过 50%，确保系统作为一个统一的低延迟单元运行；