“为了一个功能，需要再造一个Google！”Jeff Dean最新对话：TPU的诞生，与那些差点把服务器烧了的疯狂往事|jeff|youtube|开源模型|服务器|疯狂|知名企业|谷歌

揭秘那些写在教科书之外的硬核黑历史与底层逻辑。

图文 | Gemini A I 小分队

责编 | CSDN 编辑部

出品丨AI 科技大本营（ID：rgznai100）

在 Google Cloud Next 的主舞台上，两块泛着金属冷光的芯片被稳稳地摆在桌面上。左边那块稍微厚重一点，右边那块则显得更加紧凑。

此时的台下，坐着数千名刚刚听完 Keynote 一系列大模型新功能发布的开发者；而在桌子两边，则是科技播客圈和工程界最具分量的四个人。一边是著名商业播客《Acquired》的主播Ben Gilbert和David Rosenthal——就在几个月前，他们刚用一档长达 12 小时的节目，把 Google 25 年的技术史扒了个底朝天；另一边，则是这段历史真正的缔造者：Google 首席科学家Jeff Dean，以及 Google AI 基础设施高级副总裁Amin Vahdat。

就在过去的这大半年里，整个 AI 行业的叙事正在经历一场剧烈的物理转向。当具有长链条推理能力的新一代大模型出现，当各种“智能体（Agent）”开始在后台日夜不休地调用工具、生成成千上万行代码时，人们突然发现，过去那种“重训练、轻推理”的算力消耗模式到头了。推理端的算力需求，正在从一道涓涓细流变成决堤的洪水。

与此同时，大模型带来的不再只是软件层面的代码竞速，它已经彻底演变成了一场重资产的物理战争。为了满足庞大的能源需求，微软买下了三里岛核电站的产能，亚马逊和 Google 也在满世界寻找风电、太阳能和小型核反应堆；英伟达的新一代架构常常因为发热和封装产能牵动着整个华尔街的神经。AI 正在猛烈地撞击着真实世界的物理壁垒。

在这样的背景下，Jeff Dean 和 Amin Vahdat 并没有在台上大谈 AGI 还有几年到来，也没有兜售虚无缥缈的科幻概念。他们聊起的是 11 年前，为了不让庞大的语音识别需求把 Google 拖垮，而在一张幻灯片背面算出来的TPU雏形；是 2003 年为了造出 1 万个端口的交换机，直接把服务器主板烧起火的极客往事；是今天哪怕手握上千亿美元的资本支出预算，依然会被一颗 57 美分的德州仪器电容器卡住脖子的工程现实。

这也是一次极其难得的“软硬碰撞”。当一个掌管着世界上最前沿模型研发方向的首席科学家，遇上一个掌管着地球上最庞大算力网络的基建狂魔，他们每天在会议室里是如何为了下一代芯片的架构讨价还价的？为了让模型少等几毫秒，硬件团队需要对网络拓扑结构做出怎样的妥协？以及，当 Google 内部 75% 的新代码都已经被 AI 自动生成时，人类工程师这最后 1% 的价值，究竟落在了哪里？

在这场对谈中，你不仅能听到一段关于 Google 算力帝国是如何在误解与试错中崛起的极客秘史，更能窥见在未来十年，支撑起整个 AI 时代的钢铁骨架究竟长什么样。

以下为这场精彩对谈的完整实录：

“我们需要再造一个 Google”：TPU 的疯狂起点

David Rosenthal & Ben Gilbert：我们是今天的主持人。今天我们将展开一场非常精彩、有趣的对话。《Acquired》是我们做的一档超长篇幅的播客，专门讲述科技及其他公司的发展史。去年，我们做了一个由三部分组成、长达 10 到 12 小时的系列节目，深扒了 Google 的整个历史——从搜索引擎的诞生，一直讲到我们当下所处的 AI 时代。所以，当 Google打来电话问：“嘿，你们想不想在台上采访 Amin 和 Jeff？”这简直是想都不用想的好事。今天非常激动能在这里对他们进行采访。也很高兴能和大家一起分享。

Amin Vahdat：台上的这些芯片确实巧夺天工。它们真的很美。

David Rosenthal：右边这块看起来比左边那块稍微大一点点。是这样吗？

Amin Vahdat：左边这是 v8t，这是我们的训练性能怪兽；而右边这块是 v8i，它在物理尺寸上确实稍微大一点，它的内部构造意味着这里蕴含了更强的算力。里面有更多的静态随机存取存储器（SRAM）。这也是为什么我们能实现超低延迟推理的部分原因。我们可以把像 KV 缓存之类的东西全都存放在芯片上。高带宽内存（HBM）和 SRAM 之间的数据传输速度极快。

这一块则是为吞吐量而生的，提供规模化的原始算力，每个 Pod 最多可容纳 9600 个 TPU。然后通过我们的数据中心网络和软件——其实如果你听了今天早上的演讲就会知道——得益于 Pathways 和 JAX，一百万块芯片可以协同工作。

Jeff 在这两项技术的开发中发挥了举足轻重的作用。它们真的就像一台计算机在运转。换句话说，你只需写下一段代码，编译器和运行时环境就会自动弄清楚，如何将它分配到多达一百万个 TPU 上去执行。

Jeff Dean：甚至只需一个 Python 进程就能驱动这整个庞然大物。

Ben Gilbert：这绝对是我听过“最 Google”的事情了。Jeff，我们想先问问你，1999 年你加入那个没人看好的小型初创搜索引擎公司时的情景——你是 Google 的第 30 号员工。

Jeff Dean：当时我们全都挤在帕洛阿尔托市中心一家店铺的楼上，那地方现在是个 T-Mobile 手机店。现在每次路过那里感觉都很奇妙。它现在就是个卖手机的。

Ben Gilbert：你当时有想过有一天自己会设计最前沿的硅芯片吗？

Jeff Dean：我当然没想过，因为我压根没有这方面的经验。但我认为，就我们要努力实现的目标而言，Google 一直是一家雄心勃勃的公司。我喜欢我们那个永恒的使命：整合全球信息。我觉得这仍然是我们正在努力做的事情。而这也带来了一系列多年来仍未被完全解决的、非常有趣的纯技术挑战。

David Rosenthal：说到这个，我们今天想先带大家回到十多年前的 2013 年，回到 TPU 项目的起点，聊聊当时你和 Google 预见到了怎样即将到来的技术挑战，从而催生了你们要自己研发芯片这个疯狂的想法。你能带我们回到那个时刻吗？整个项目是怎么开始的？那是个很棒的故事。

Jeff Dean：其实比那还要早一点，甚至在2011 年和 2012 年的时候，我们就开始使用海量的 CPU 机器来训练规模越来越大的神经网络了。因为我们发现，每次只要我们扩大训练模型的规模，用更多的数据去喂它——我们当时有句口头禅：“模型越大，数据越多，效果越好”。这在我们尝试过的许多问题中都得到了印证，无论是语音识别领域，还是各种不同的计算机视觉任务，以及在 2012 年、2013 年初的语言和翻译任务中，都是如此。

Ben Gilbert：而这后来就被大家通俗地称为“缩放定律”（Scaling Laws）。

Jeff Dean：我们当时其实并没有对它进行过什么正式的定义。大家只是在茶水间里闲聊：“哦，我们把模型做大了一倍，效果更好了”，诸如此类的话。但这确实是我们在 2012 年和 2013 年初，在规模越来越大的实验中实实在在看到的结果。

所以，特别是在语音识别方面，我们在过去几个月里通过训练更大的模型，使得词错率下降的幅度，竟然抵得上过去 20 年语音识别研究取得的进步总和。在那个时候，现有的语音系统效果还不够好，无法让人真正愿意去用，因为大概每说五个词就会错一个。想象一下，你口述了一段话，然后还得回过头去修改每五个词里的一个错误，这太让人抓狂了。

Ben Gilbert：而且那时候我们已经进入移动互联网时代五年了。

Jeff Dean：尤其是当时的手机没有足够的算力在本地运行语音识别。所以你只能把音频发送到云端，在云端进行识别。但如果我们能把错误率降低一半，显然人们就会开始更频繁地使用它。

于是我就做了一个思维实验——通常大家会说是“信封背面的粗略计算”，或者是“幻灯片背面的推演”——我当时想：“好吧，假设有 1 亿人每天开始对着手机说上 3 分钟的话。为了推出我们想要的最优质模型，我们需要多少算力？”

结果算出来，为了上线这个新的语音识别功能，我们需要比Google当时拥有的计算机总数还要多出一倍以上的机器。

Ben Gilbert：为了一个功能投入这么多，听起来代价太大了。你等于是需要把 Google 的整个基础设施再复制一遍。

Jeff Dean：所以我当时挠了挠头。心想：“这听起来不太妙啊。”

但后来我们发现，神经网络推理有一个极其不可思议的特性，那就是它对降低精度有着极高的容忍度。它本质上就是一堆线性代数的基本运算、矩阵乘法、向量运算，为了不同的模型以不同的方式串联在一起。

因此，如果你能造出一块芯片，它本质上就是一台性能极其强悍的低精度线性代数运算机——也就是后来的TPU——那你就有希望获得更好的性能。

我们在 2017 年发表了一篇关于TPU v1的论文，它的诞生正是源于那个“幻灯片背面的推演”，论文显示它的效率是当时 CPU 和 GPU 的 30 到 80 倍，延迟则降低了 15 到 30 倍。这就是 TPU 最初的故事。

David Rosenthal：所以当时的逻辑就是，如果要搞语音转文字这类东西，就需要一个 ASIC（专用集成电路），也就是一块专门为处理这类运算而定制的硅芯片。

Jeff Dean：在设计过程中，我们其实试图解决几种不同类型的问题。我们有语音识别，它对应一种特定类别的模型。我们还有用于各种视觉任务的多种卷积神经网络模型。然后在最后一刻，我们开始觉得：“哦，这些 LSTM（长短期记忆网络）的东西挺有意思的。哪怕我们已经开始设计芯片了，还是给它们加点额外的支持吧。”

正是因为这样，我们后来才能支持 Google 翻译以及其他一堆类似 LSTM 的应用。

Ben Gilbert：LSTM 正是 Transformer 架构的前身。

“第一代产品直接烧了”：被群嘲后，自研硬件的血泪史

David Rosenthal：大多数公司在这个时候面临这种问题，哪怕是资源雄厚的其他大型科技公司，估计都会跑去找，比如英特尔、博通或者英伟达，然后说：“嘿，给我造块芯片吧。”

但 Google 并没有这么做。为什么？

Amin Vahdat：我来讲个故事吧。这可能算是个坊间传闻——因为那是在我加入 Google之前的事了。也许 Jeff 可以帮我证实一下。

在早期，我们意识到，为了支持 Jeff 和其他人在 Google 早期构建的一些系统，比如 MapReduce、Google 文件系统（GFS）等等，我们需要一个拥有1万个端口、每秒 1GB 带宽——这在 2003 年可是个天文数字——的无阻塞以太网交换机。而这就是我们想要的。所以我们当时真的发布了一个——

David Rosenthal：而这东西当时根本不存在。很难想象一个设备上有1万个端口。

Amin Vahdat：不管别人怎么想，反正这就是我们想要的。在那个年代，主流带宽还是每秒 100 兆，能有 32 个端口左右你就谢天谢地了。所以我们实际上发了一份 RFQ（报价请求），把它发了出去，结果所有的网络公司……每个人都在嘲笑我们。

每一家都说：“这简直是个笑话。你们做不到的。1 万个端口，绝不可能。这就是你们异想天开。”

所以，Google 一如既往地展现了它的极客本色，说：“那我们就自己搞。网络嘛，能有多难？” 于是我们打造了第一个系统，而且我们实际上是把它做成了一张PCI 扩展卡，因为我们觉得传统的网络盒子没什么意义。我们懂服务器。我们要造一张 PCI 卡，然后把它插进服务器里。

结果第一代产品直接起火了。事实证明，搞硬件确实很难。它失败了。

但是不，我们没有放弃。我们造了第二代。第二代实际上投入了生产。我想现在我可以坦白说，它并不怎么好用。实际上大家都很讨厌它。他们虽然在用，但都想尽量避开那些插了这卡的服务器。

第三代产品就是那个无阻塞的、当时已经达到每秒 10GB 带宽、拥有 1 万个端口的交换机。它不是一个单独的盒子。它是数百个盒子排列成一种叫做 Clos 拓扑的可重排无阻塞拓扑结构。它在整个 Google 内部大获成功。它改变了 Google。

我认为正是像这样的经验教训，让我们愿意去投资那些看起来很疯狂的东西，那些所有传统观念、所有懂点网络的人都觉得荒谬的东西。我们总是愿意站出来说，我们要试一试。我们愿意承受第一次燃起大火的惨痛失败。第二次它是个还凑合的产品，但我们继续前行。然后是第三次、第四次，还有我们今天宣布的Virgo——那个百万 TPU 网络，它正是第三次迭代在逻辑上的延续。

而我有幸在 2010 年把开发第四代版本作为我在 Google 的新人项目。所以我们愿意去尝试——我不用去处理那场大火，但我享受了那场大火带来的红利。但我认为这在某种程度上是相似的，因为如果你回到 2003 年，你问：“制造加速器的传统智慧是什么？”

答案是，不，你不要去造加速器。你不要为单个工作负载去制造 ASIC，因为它们很快就会过时。等你把它推向市场的时候，世界早就把你抛在脑后了。

所以我认为我们当时可能本可以去英伟达，或者别的什么公司，然后说：“嘿，你们能为这个专门造点东西吗？” 然后可能被告知：“好的，这需要花这么多时间”等等。

不过，与我们的网络设备不同，第一版 TPU v1 就成功了。它不仅能用，而且效果非常好。

David Rosenthal：速度极快，大概只用了18个月。

Jeff Dean：我想从有了想法到实际部署，只用了15个月。

David Rosenthal：真是不可思议。

Jeff Dean：我们当时还抱着投机的心态买了一大批，虽然当时还不知道要怎么用，但后来全用光了。我当时跑去拦住我们当时的首席财务官 Patrick Pichette，我说我们应该买一大堆这玩意儿。他问：“多少？”我说：“很多很多。”

Ben Gilbert：嗯，这就像是那种情况：你看，既然我们有这么多 Google 工程师，我们也许应该给他们点好玩的玩具，看看他们能捣鼓出什么新产品来。而且，甚至在 2021、2022 年左右我们现在所处的这场真正的 AI 大爆发之前，就已经有很多机器学习的狭义应用在Google的产品中大放异彩了。

Jeff Dean：我给你举个例子。这不是一个 Google 的常规产品，但在 AlphaGo 对战李世石的比赛中，我们使用了整整两个机架的 TPU v1 芯片来进行推理。我后来去参观数据中心的时候，甚至还在那个机架旁边贴了一个纪念版的围棋棋盘。

正是因为拥有了大量并行的专用 ASIC，我们才得以对落子空间进行如此深度的探索，这是一个极其关键的因素。

Ben Gilbert：而李世石当时并没有意识到这一点。你知道，我们之前没聊过这个，但我回想起了我们做调研时发现的一点。TPU v1 真的能塞进硬盘仓里吗？

Jeff Dean：它们是基于 PCIe 接口的扩展卡，所以你只需要把它们插进 PCI 插槽里就行了。

Ben Gilbert：我一直觉得这是一种非常聪明的做法，就好像在说：“好吧，有很多东西我们不想去碰。我们只想专注于解决这个非常狭窄的问题，我们能不能直接把它塞进现有的硬件里。”

Jeff Dean：我们当时试图把模型塞进单张卡里，而这个事实让事情变得简单了，因为你实际上不需要那么大的带宽来让数据进出这张卡。然而，如果你现在想塞进大得多的模型，即使只是用于推理，它们也无法容纳在单一芯片上，你就需要复杂得多的网络，就像我们在 v8i 或后续几代 TPU 上所做的那样。

David Rosenthal：而真正带来质变的是几年后问世的 TPU v2，它把256个稍微加强版的 v1 通过网络拓扑结构连接在了一起。那时的顿悟是，我们不仅能用它们来提供服务，还能用它们来训练这些大模型。

Jeff Dean：而且同样是利用了降低精度的特性，这意义重大。

想象一下：把一个带有六位小数的分数乘以另一个带有六位小数的数字。这对你来说超级难，对吧？嗯，这对计算机来说也超级难。

所以，如果你能把相乘的数字从小数点后六位减少到只有一位，你就能用更简单的乘法器单元去计算多得多的数字，并且能够并行处理更多运算。

从本质上讲，你可以在相同面积的芯片里塞进更多的乘法器，这不仅能给你带来大得多的吞吐量，还能大幅降低延迟，并且在计算结果时，减少了你需要从内存中读取和写回的数据量。所以，对于深度学习和计算机架构师来说，这简直就是绝配。

Amin Vahdat：我描述这事儿的方式是，如果你回想一下高中物理，或者大学物理课，当教授或老师在黑板上解题时，他们会推导出各种各样的近似值。这曾经快把我逼疯了，因为我是个彻头彻尾的“精度控”，但教授会说：“3π，我们就把它当成 10 吧。” 然后这些数字在计算过程中，偏大和偏小的误差就会相互抵消。最后，他或者她就会得出一个与真实答案惊人接近的结果，而这一切仅仅是通过一路近似算出来的。

所以，当你能在脑子里完成计算，并且只用大概百分之一的力气就能得到几乎一样的答案时，降低精度就是件好事。

Ben Gilbert：但这似乎会带来一种权衡，它会影响下游的模型训练，比如有人会说：“嘿，我们来做一个使用高精度的优秀模型吧。”我总是觉得非常不可思议，我们今天拥有的这些令人惊叹的前沿模型，竟然都是在精度尽可能最低的硬件上训练出来的。

Jeff Dean：一种理解方式是，你在模型中有一堆不同的权重，对吧？如果你降低这些权重的精度，如果只降一点点，影响并不大。如果你降得很多，那你确实会损失一些模型质量，但你可以通过增加，比如说 20% 的权重来弥补这些质量损失，哪怕你把精度的位数砍掉了一半。所以你就知道这是一笔划算的买卖，因为它让你的模型在参数数量上稍微变大了一点，但在你需要处理的比特数上却变小了很多。

“YouTube里全是猫”： Scaling Law 的蛮荒时代

David Rosenthal：你们 Google 如今拥有一个处于行业前沿的硅加速器业务，如果你愿意的话，可以称之为“基建业务”。你们制造 TPU。这么说很贴切。而且它与一个前沿人工智能实验室结合在一起，全都在同一个屋檐下。这种紧密的合作是从什么时候开始的？显然，在 TPU 刚起步时，今天概念中的这种“前沿实验室”还不存在。

Amin Vahdat：我想说，早期在大规模神经网络训练上的工作，实际上为 v1 提供了方向。所以，从某种意义上说，我们从一开始就已经这么做很久了。Jeff 领导的 Google 研究院（Google Research）在这里做了许多先驱性的工作，而且多年来一直在持续推进，他不仅深入参与了 v1，还深度参与了整个 TPU 项目。

我们提到了那个展现了非凡远见的“幻灯片推演”，但 Jeff 一直深度参与了 v1、v2、v3 的研发，包括架构设计、细节打磨，并将来自研究领域的全部知识以及未来的发展方向，注入到每一代 TPU 中，包括我们今天在这里看到的这两款。

Ben Gilbert：那篇关于 YouTube 识别出猫的论文，是用 TPU 跑出来的，对吧？那是 TPU v1 还是……

Jeff Dean：不，那甚至是在 TPU 诞生之前的事了。那是在 2012 年。当时我们正试图扩大大型神经网络的规模。我们对图像的无监督学习目标有一些想法。所以我们说：“好吧，我们就随便挑 1000 万帧随机的 YouTube 画面，看看模型能从中学到什么。”

于是我们动用了 2000 台不同的机器，在 16,000 个 CPU 核心上训练了一个神经网络。结果我们训练出了一个多层模型，在训练完成后，你可以去观察顶层的不同神经元会对什么样的图像产生兴奋反应。

结果发现，因为我们是用 1000 万个随机的 YouTube 视频训练它的，其中一个神经元在看到猫脸时会变得非常兴奋，因为 YouTube 上有很多猫的视频，而其他神经元则会对汽车的零部件之类的事物感到兴奋。而这完全是无监督的。我们从来没有告诉过模型这是一只猫，或者这是一辆车、一个人。但因为我们训练了一个比别人尝试过的都要大 50 倍的模型，这个模型就开始纯粹在无监督的情况下发展出这些表征能力。我认为这也是我们在内部得出“模型越大，数据越多”这一启示的一部分。

Ben Gilbert：我要稍微跑个题，因为我觉得这个话题很有意思。这项研究发展到今天变成什么样了？比如盯着特定的神经元说：“这是一个识别猫的神经元吗？还是更抽象的概念？”

Amin Vahdat：我们在 Google 内部曾进行过一场激烈的辩论，争论我们是否应该将这些深度模型用于搜索。

Jeff 对此再清楚不过了，因为我们面临的一个挑战是，很多时候，也许是大多数时候，这些模型的表现都优于人类手动微调的算法，对吧？比如那种你可以阅读并理解的算法：“哦，我明白这个算法想干什么，这是它给出的搜索结果。” 模型的表现会比它更好。

但问题来了——你无法解释为什么。比如为什么这个神经元变成了“猫神经元”，而另一个神经元变成了……所以如果有漏洞，你该怎么去调试它？我认为这个问题一直延续到了今天。Jeff，关于这个你或许可以多说两句。

Jeff Dean：我认为，现在的无监督学习已经稍微退居二线，让位于我所说的“自监督学习”了。因为现如今，你训练那些最强大的语言模型的方法，就是拿大量的文本，然后把其中的一部分藏起来，让模型去猜缺失的是什么。通常你会让它这样猜：你给它看文档的前缀，比如一个句子的前半部分，然后让它猜下一个词。毫不夸张地说，这就是今天那些拥有各种惊人能力的语言模型的全部训练目标。

还有其他的变体，比如你可以拿一段文本，隐藏掉里面大概 10% 的词，然后模型在尝试填空时，可以同时看左边和右边的上下文。这有点像你小时候可能玩过的“疯狂填词”（Mad Libs）游戏。但这对于对话应用来说并不是特别好用，因为在实际对话发生之前，你是看不到对话后续部分的。不过，这种方法在生成文档摘要之类的事情上，还是有很好的用武之地的。

软硬件的“宫心计”：顶级实验室如何协同设计？

Ben Gilbert：我想深入探讨一下 David 刚才提出的一个概念。你们这边有 TPU 团队。那边有 Google DeepMind。如果我空降到你们的一些会议里，那会是一幅怎样的场景？谁会提出什么想法？每个团队都在要求些什么？有多大的灵活性？基本上就是你们日常工作的一天。

Amin Vahdat：灵活性非常大，而且这里最美妙的一点是，大家的目标是一致的：构建尽可能最好的模型，尽可能最高效的模型。所以我认为这里面有很多的相互妥协与配合。

举个例子，研究团队可能有七个看起来非常、非常大有可为的研究方向。实际上他们远不止七个。硬件团队也有七个看起来非常、非常大有可为的硬件方向。

那么，你如何将这两者结合起来呢？然后就会有一系列的讨价还价，因为他们最终会达成这样的共识：“好吧，如果为了你的模型，你把你那七个想法中的一个往这个方向改一改，然后我也把我在硬件上的七个想法中的一个改一改，会怎么样？因为我们没法完全照你们想要的做。” 这种事经常发生。

研究团队会跑来找硬件团队说：“我们想要 X。” 硬件团队会说：“那不可能。”

现在，如果你们是在不同的公司，对话到这儿就结束了。“好吧，拜拜。我们也许会去找另一个搞硬件的人谈谈。你拒绝了我们的报价请求。所以，我们想要一个1万个端口的交换机。”

反过来，在许多其他情况下，硬件团队会跑去找研究团队说：“我们搞出了一个超棒的新玩意儿。你们想拿它干点啥？” 研究团队会说：“啥也不干。听起来毫无用处。我确信你们的硬件小玩意儿很酷，但我们不感兴趣。”

所以正是这种相互的磨合促使他们去想：“好吧，如果我用你们的硬件小玩意儿，我的模型是不是能玩出点不一样的新花样？” 所以，这种相互配合的精神真的每天都在，这种对联合空间的探索也每天都在。这不是我的地盘，也不是你的地盘，这是我们的共同地盘。我们如何构建一个系统，能够尽可能高效地交付模型、服务、训练、智能体（Agents）以及所有的一切。这发生在各个层级。现在 Google 有很多人，所以很多这种交流都是工程师对工程师的直接碰撞，这正是你所期望的。然后，其中一些想法就会脱颖而出。

Jeff Dean：我想补充一点，在人工智能和机器学习这样一个日新月异的领域里，作为一名硬件设计师是极其艰难的。因为基本上，如果你考虑今天开始设计一款芯片，可能需要两年时间才能完成设计并部署到数据中心，然后它还需要服役三到六年之类的时间。所以你实际上是在试图预测这个发展极其迅猛的领域，在未来两到六年、甚至八年的时间跨度里会走向何方。

而就在六个月前，我们可能刚刚用某种新算法彻底改变了机器学习的许多方面。所以这超级难。因此，能拥有那些真正在小规模上尝试各种想法、并且这些想法看起来很有希望成功的研究人员的洞察力，是非常棒的。

对于一个研究人员来说，最美妙的事情莫过于一个看起来“呼之欲出”的想法，因为你知道只要再加把劲，你就能让它成真；而那些怎么弄都不见起色、你试尽了所有办法也不行的想法，可能就没那么让人兴奋了。

但我认为那种相互配合和协同设计真的非常重要。我实际上可以给你举一个 v8i 的例子。我们想做的一件事是为强化学习进行非常长的轨迹追踪，你需要解码海量的 Token。比方说你生成了一段大约 500 行的代码，然后你希望能够运行它，看看代码是否能跑通并经过单元测试，如果可以，它们就会在强化学习中获得奖励。

那么，为了解码这些 Token，你必须承受每次生成 Token 时的延迟，对于一次生成 60,000 个 Token 来说，如果这需要很长时间，那么你的强化学习就会花费长得多的时间，因为它没有达到尽可能低的延迟。

因此，研究团队找到 TPU 硬件团队说：“我们真的需要一种方法来大幅降低延迟，因为这不仅能改善在线推理，还能提升强化学习的效率。” 于是大家凑在一起集思广益，说：“嘿，我们其实可以对正在设计的芯片做一些相对较小的改动，但改变网络的拓扑结构。” 这实际上不会是一个翻天覆地的变化，但它真的能极大地改善解码的延迟。

Amin Vahdat：这就是蝴蝶拓扑结构。

Jeff Dean：所以我认为这是一个非常清晰、具体的例子，展现了我们是如何进行协同设计的。

Amin Vahdat：多年来，我们构建这些 TPU 都是为了追求吞吐量，而 Jeff 刚才提到的那个推理例子，我们过去基本上是通过将许多许多查询组成流水线来控制延迟的。所以我们会同时处理大量查询。但对于强化学习，你没法把很多查询做成流水线。就像 Jeff 举的那个绝佳例子，你正试图生成这500行代码。运行它，然后测试它并获得结果。你没法用流水线来处理。

所以，那个为吞吐量优化的引擎——它现在依然存在，因为对于其他用例，你仍然需要那种庞大的吞吐量——并不最适合这种“好吧，让我先跑出一个结果来”的低延迟场景。硬件团队本来会自然而然地倾向于说：“我只要把最后一个环节弄快点就行了。” 但这完全忽略了即将到来的研究问题的实际用例。如果没有那种密切的沟通，你就会错过这个关键点。

Ben Gilbert：未来是未知的，未来是模糊的，而且你往未来每多看一天，它就变得越发不清晰。你们有这么多世界级的研究人员正在开发，比如下一个 Transformer 会是什么？而且你们对下一次迭代的信心存在着巨大的梯度差异。当你们在硅片上只有固定的空间，而且这东西还要服役两到八年的时候，你们是如何分配筹码下注的？

Amin Vahdat：这是我们每天都在激烈争论的问题。

Jeff Dean：这就是每天协同设计的整个过程，对吧？

Amin Vahdat：你可能有成千上万个想法，但你不可能把它们全都塞进硅片里。正如你所说，它们全都是展望未来两三年的概率分布函数。而你每一代只能挑选四个左右的想法。也许是五个，但绝不是一千个。你只能挑出四五个宏大、冒险且大胆的东西放进去。好的。那么现在，你如何去预测未来呢？实际上，你是去写模拟器。

换句话说，我们并不是完全在凭主观说：“好吧，我喜欢这家伙。我不喜欢那个人，所以我要去看书了。” 我们实际上是在进行内部的“大比武”。

Jeff Dean：拥有高保真度的模拟器真的、真的非常重要。

Amin Vahdat：你必须对工作负载做出预测。有许许多多的变量。模拟器并不是……到最后，它们可能会从那一千个想法中筛选掉 90%。甚至可能是 95%。

这是件好事。但现在你手里还有 50 个，对吧？接下来的就是主观判断了，比如，我们认为这个东西在三年后会有多重要，相比之下，另一个东西在五年后或两年后又会有多重要。

Ben Gilbert：而且我敢肯定，你们也在寻找巧妙的折中方案，比如：“我们能不能用一些独特的乘法器或者这里的什么东西，把这两件事都给办了？”

Amin Vahdat：但空间终究是有限的。不可避免地会有一些人感到些许失望，但我认为，大家都在同一个团队、都有着同一个目标的美妙之处在于，每个人都参与了这个过程。实际上，关于 Google 的另一件重要的事情是，大家有一种共识——而且我认为这也是事实——即这是一个公开透明、数据驱动的过程。没有完美的决定，大家只是在一起做出他们所能做出的最佳决定，然后相互信任：“好吧，这就是我们做出的决定，现在我们要去执行它了。”

而且也许 12 个月后又会有一趟新列车（新想法）到来，也许 12 个月后会有两趟列车到来，谁知道呢？所以，也许我这次没赶上这趟车，但我为加深理解做出了贡献。也许我能赶上下一趟车。

Ben Gilbert：TPU v9 就可以有那个功能了。你们现在是每年都在做新芯片吗？

Amin Vahdat：数据似乎表明，我们将来每年都会推出新芯片。而且一年有两款。

“从一万个模型到几个”：谷歌 AI 中枢的统一之路

David Rosenthal：所以我们一直在谈论 Google 内部研究团队和 TPU 团队之间这种令人惊叹的互动。如今还有第三个维度，对吧？这在 TPU 项目刚开始时是不存在的，那就是——我敢肯定在座有很多 Google 员工，也可能有很多现在正在使用 TPU 的非 Google 员工，我希望如此——第三方用户。

这在整个体系中扮演了什么角色？或者实际上，先给我们讲讲决定在Google Cloud上向第三方开放 TPU 的过程吧？我想象那一定是个复杂的决定。

Amin Vahdat：其实并不复杂。我们在 2018 年发布了它们。可以这么说，Jeff 从第一天起，就一直是将 TPU 向学术界和其他公司等外部人员开放的坚定支持者。

桑达尔（Sundar）在 2018 年宣布了首款云 TPU。我想我们可能是在 2017 年做出的决定。所以大概是在 v3 左右的时候，但我们不想发布 v1。我的意思是，Jeff 知道它能行。其他许多人也知道它能行，但它还没有被广泛证明。

v2 是我们第一次用于训练。所以到了 v3 的时候，大家都觉得：“我的天哪，这东西是真的牛。其他人也能利用它。” 而且我认为我们看到了世界上机器学习的应用正在不断增长，对吧？比如 Google 在采用这项技术方面走得比较靠前，但我们看到许多不同的公司和机构也意识到，这种方法可以解决他们关心的问题。

David Rosenthal：但与此同时，我敢肯定，Google 内部的需求绝对足以消化掉你们生产出来的每一个新增的 TPU。

Amin Vahdat：现在依然如此。所以我认为，这当然就变成了“你如何将你的想法融入 TPU”的另一种变体，它是一个投资组合。我认为它就是一个投资组合。

换句话说，我们极其幸运，我们拥有云服务，我们拥有世界领先的研究实验室，我们还有各种面向用户的服务。换句话说，我们拥有分发渠道。我们有 12 个日活跃用户超过 5 亿的服务，而且它们全都在使用 TPU。好的。那么现在你只有有限数量的 TPU。你该如何在它们之间进行分配？

Jeff Dean：我想说，在过去几年里帮了大忙的一件事是，在 Gemini 之前，我们有许多不同种类的模型被不同团队用于各种各样的任务。我们有用于视觉任务的卷积模型。我们有许多用于推荐系统的模型，还有一些用于广告预测的模型，而这些模型都有点截然不同。所以，对于 TPU 硬件团队来说，要弄清楚我们应该更看重哪一个并为其进行优化，实际上变得有点困难，因为你可能需要不同类型的技术。

但随着 Transformer 的使用变得越来越普遍，你可以专注于让 Transformer 模型运行得极其出色，将其作为一个非常重要的用例，结果你最终覆盖的用例范围，比我们以前要大得多。

Ben Gilbert：这是最近才做出的决定，对吧？“All-in”一个超级大模型，这大概是 2023 年左右的决定。

Jeff Dean：是的，没错。我的意思是，这正是 2018 年 Pathways 项目的初衷，当时的愿景就是我们应该训练一个能够处理所有模态的统一大模型。但这是一个相当复杂且漫长、宏大的计划。所以我们花了一段时间才走到今天这一步。

Amin Vahdat：这个决定其实做得早得多，只是现在才真正实现，因为我想我们曾经统计过，我们在生产环境中不知道跑着大概 1 万个不同的模型。其中大多数可能都是某个母模型的变体，但大家都在按照自己的意愿进行优化。

Ben Gilbert：如果你用当初得出1万个模型这个数字的相同标准来衡量，你觉得今天这个数字是多少？

Amin Vahdat：几百个。

Jeff Dean：是的，可能只有几百个。其中少数几个核心大模型，几乎承载了绝大部分的推理流量和绝大部分的应用场景。

Ben Gilbert：这背后的逻辑，是不是完全印证了你之前提到的观点？“模型越大，数据越多，效果越好”，只不过现在是打了鸡血的加强版。我们干脆就把所有 Google 的产品、所有 Google 的用户数据以及所有第三方的数据，全都喂给它。

Jeff Dean：机器学习的终极梦想，就是构建出能够举一反三、处理从未见过的新事物的模型。因此，当你构建了一个见多识广的更大模型时，它能够泛化去处理你要求它做的新任务的可能性，就会变得高得多。

所以这就是你在所有这些模型的进化过程中所看到的，它们现在已经见识过种类多得多的数据。它们在人们关心的任务上接受了强化学习训练，从而能够泛化到人们关心的其他任务上。这就是为什么你现在能拥有这些几乎无所不能的单一统一模型。

“推理需求正在超越训练”：AI 下半场的终极瓶颈

David Rosenthal：顺着这个思路，我们刚才聊了很多历史，因为显然本和我都热爱历史，重温这一切太有趣了。但既然今天把你们两位请到了这里，如果不聊聊未来，那就太失职了。

也许我们可以从“瓶颈”这个话题开始。能不能给我们讲讲你们今天工作中所面临的现状：阻碍我们获得更多算力、更高性能的瓶颈究竟是什么？以及你们认为未来几年这种情况会如何改变？

Amin Vahdat：我给出的一个不幸的答案是：一切都是瓶颈。而且我非常确信，如果我们不齐头并进地解决所有问题，那么那个我们没有去解决的问题，最终就会变成我们后悔当初没去解决的致命瓶颈。

Ben Gilbert：给我们盘点一下吧。都有哪些瓶颈？

Amin Vahdat：能源是一个巨大的瓶颈。我们已经将大量工作重心转移到了优化每瓦性能上。数据中心，在全球各地建设这些数据中心，面临着许许多多的问题。审批许可、土木施工、电气工程、机械设备等等。

Ben Gilbert：这似乎是 Google 和你们的同行目前面临的最严峻挑战之一，就是如何实打实地把这些东西建起来。这是一个非常硬核的物理过程。

Amin Vahdat：非常物理的过程。换句话说，我们平时生活在光子和比特的世界里。但这是原子的世界。我的意思是，这里有大量的混凝土、大量的泥土、大量的电缆等等。还有太阳能电池板、风力涡轮机、核反应堆……所以这些都是瓶颈。硬件绝对是个瓶颈。我是说，这是现在大家都知道的一个。它可能是台积电或其他厂商的晶圆。也许是三星、英特尔和其他公司。它可能是内存。它可能是印刷电路……

David Rosenthal：甚至可能是用来把这根小电缆连接到这个玩意儿上的那个橡胶小配件。

Amin Vahdat：在新冠疫情期间，我们有个来自德州仪器的电容器，大概只要 57 美分。顺便说一句，它的价格在一段时间内竟然飙升到了 500 美元左右，而那正是当时的瓶颈。不仅是我们，其他所有人，都栽在了这个小东西上。

David Rosenthal：电容器是用来吸收电荷的。

Amin Vahdat：是的。事实证明它们非常重要。所以这些都是瓶颈。

Ben Gilbert：如果今天 TPU 的数量是一个瓶颈，如果我给你双倍的预算，让你去造双倍数量的 TPU，而且你也确实做到了，那还会遇到瓶颈吗？瓶颈会变成什么？

Amin Vahdat：回顾 2025 年，我想我们在资本支出上大概花了 900 亿美元左右，不管具体数字是多少。对于 2026 年，我们已经宣布了大约1750 亿到 1850 亿美元的资本支出。

Ben Gilbert：看来我们正在把你的假设变成现实。

Amin Vahdat：我每天都在经历这些。我的团队负责在 2025 年到 2026 年间交付两倍的产能，就是实打实地把 TPU、GPU、CPU 或其他任何东西部署到位。我觉得我们能做到。

Jeff Dean：我想说的一点是，推理能力将会成为一个日益突出的问题，因为我们看到大语言模型推理对Token的需求正在爆炸式增长。随着人们开始在后台任务中使用更多的智能体，这些智能体会消耗更多的 Token。

而且我认为，低延迟将成为一个真正决定成败的关键特性。你从 v8i 上就能看出来，我们正在追求更低的延迟。

Amin Vahdat：v8i 确实在集合通信操作上实现了5倍的延迟降低，而且网络直径也更小了。所以这就是集合加速引擎，实际上是我们内置在板子上的“加速器的加速器”。有太多不同的部件在协同运转。

Ben Gilbert：Google Search 曾经也对速度有着近乎狂热的痴迷，而这也是它的决定性特征之一。比如，直到搜索跨越了某个速度门槛、质量门槛等等，它才成为了这个无处不在的产品。同样的事情似乎正在 AI 领域重演。Jeff，你应该是这件事的亲历者。

Jeff Dean：纵观 Google 的历史，我们一直对产品的响应时间痴迷不已。特别是搜索，它是我们早期真正死磕的领域之一，而且我们实际上可以衡量增加延迟带来的影响。

比如，你可以挑出千分之一的用户，给他们增加 5 毫秒的延迟。然后你就会发现他们使用搜索的频率降低了。这可不是什么好事。反之亦然，如果速度更快，他们就会更频繁地使用搜索。

所以这是我们非常关注的地方，而且我认为你将会开始看到，模型延迟路径上的所有环节——软件、为其打造的更好硬件——都会更加专注于将算力推向离用户更近的地方，以满足交互使用的需求。这在过去对搜索来说并没有那么重要，因为如果数据中心处理时间是 150 毫秒，然后数据在用户之间往返需要 150 毫秒，那网络延迟占了很大比重。但语言模型最初的响应时间更接近一秒，那时候 150 毫秒的网络延迟就显得没那么重要了。

但现在，如果你开始把响应时间缩短 5 倍，你就会觉得：“好吧，那我最好把这些服务器放在用户隔壁，而不是放在大半个国家之外。”

Ben Gilbert：我对 Google 所有这些不同团队的心理模型是：你们在某个领域取得了突破。某个团队在缩短响应时间方面做出了惊人的成绩，然后突然之间，聚光灯打到了另一个巨大的瓶颈上。

Amin Vahdat：阿姆达尔定律（Amdahl's law）就是这样一种情况……在 Google，没有哪个团队想成为主要的瓶颈。而我总是告诉所有团队：最终你们都会成为主要瓶颈的。迟早会轮到你们的。

Jeff Dean：在智能体的世界里，你看到的是：模型先做一些事情，然后调用工具，接着获取这些工具的输出并进行分析，最后决定下一步做什么，这可能又是调用另一个工具。如果你把模型处理的时间降到零，我想我们就会开始意识到，我们的工具太慢了。

在很多情况下，我们的工具是为人类的交互节奏而设计的，比如“给我列出目录里的文件”或者“执行 SQL 查询并给我结果”。如果你的模型调用这些工具的速度比人类快 100 倍，那这些工具的响应速度就显得太糟糕了。

Ben Gilbert：这很有趣。我记得就在几年前，我和 AI 界的一些朋友聊天时还说：“哦，AI 数据中心建在哪儿都行，无所谓，因为延迟根本不是个事儿。”对于训练来说，这确实是真的。

Jeff Dean：没错，但我认为甚至对于任何事情，大家当时都觉得，哦对，对于离线推理和强化学习来说也是如此。

Ben Gilbert：但现在情况正在发生变化。听起来这马上就要变天了。离线推理有哪些例子？

Jeff Dean：比如你想在每一个上传的 YouTube 视频上运行某个模型，你需要这么做，但这并不是说有个用户正眼巴巴地等着安全分类器的结果。或者你需要分析我们抓取的所有网页来做点什么。这种推理工作负载有相当大的比重，这其实是件好事，因为那时你就会想要以吞吐量为导向的芯片，而不是以低延迟推理为导向的芯片，因为你对延迟没那么在乎，只要今天能跑完就行，你可以把它们全部打包成批处理。

Amin Vahdat：所以这时候你就可以使用超大的批处理规模，而在这方面 v8t 比 v8i 更在行。所以，只要你有大批量的任务要处理，v8t 实际上在推理方面表现得极其出色。

David Rosenthal：如果我们在 2023 年进行这场对话，我问更多的算力是流向了训练还是推理？我想答案肯定是训练。现在情况反转了吗？

Amin Vahdat：正在反转。天平正在倾斜。

75% 代码已由 AI 接管？

David Rosenthal：说到反转，我们刚才一直在谈论未来的瓶颈。但，Google 现在 75% 的代码都是 AI 写的？

Amin Vahdat：是有这么个统计数据，我不知道准不准确。它从去年的 50% 跃升到了 75%。我想这大概是智能体和代码模型共同的功劳。

David Rosenthal：Google 目前的编程现状是怎样的？它变化得有多快？

Jeff Dean：实际上，我们使用编程助手已经有很长一段时间了，而且我们眼看着这些数据一路攀升。有一年大概是 8%，几个月后，提交到我们代码库的字符中就有 16% 是它们写的，然后是 25%。而在过去大概四个月里，这个数字真的是呈爆炸式增长，因为现在的模型能够处理运行时间长得多、复杂得多的任务。

所以现在你实际上可以对它说：“能不能帮我写一个模块，大致的顶层英文需求是这样的？” 然后它就会真的跑去把代码写出来，并且顺带写一大堆测试用例。这在过去可能是好几个小时、甚至好几天的工作量，而现在模型可以自主完成这一切。

所以你会看到大家都在充分利用这一点，因为突然之间，作为一名软件开发者，你可以指挥一大堆这样的后台任务，从而完成比过去多得多的工作，而过去你可能只能交给它一个 20 分钟级别的任务，而且它还不一定能做对。

Ben Gilbert：当这个数字达到 99% 而不是 100% 的时候，最后那 1% 由人类编写的会是什么类型的代码？

Jeff Dean：我认为，“知道该去解决什么问题”蕴含着巨大的杠杆效应。而且我认为，这将是这些模型最难真正理解的事情之一，那就是：你到底应该去研究什么问题？而人类在这种选择过程中，有着不可思议的天赋。

David Rosenthal：这场对话太精彩了。也许作为收尾的最后一个问题。在你们两位的职业生涯中，都经历过令人难以置信的技术板块大碰撞，无论是互联网，还是移动设备、云计算，以及随之而来的一切。我很好奇，以你们今天的亲身经历来看，现在正在经历的这场 AI 变革，与过去相比感觉如何？

Amin Vahdat：对我来说，这是迄今为止最大的一次。我记得——那已经是挺久以前的事了——在 1993 年看到 NCSA Mosaic。那真的是第一个图形化网页浏览器。我当时想：“我的天哪，世界变天了。” 然后互联网就爆发了。

但这次的规模要大得多。如果我回想从 1993 年到互联网真正以有意义的方式改变世界，大概花了十年时间，也许稍微短一点。我记得几年前我还说过：“你知道吗，有了 AI 现在的突破，我们将为每位患者配备一名医生，为每个学生配备一名老师，为每种疾病找到治愈的方法。” 我的意思是，这些都是很大胆的预测。我当时没有给出时间表，但现在看来，这已经不再像是科幻小说了。

比如，你能想象我们在未来五年内就能实现其中的很多目标吗？我能想象。这是我见过的规模最大、速度最快、很可能也是最具影响力的一场变革。

Ben Gilbert：这是大自然的规律吗？是不是在 10 年后，无论下一个风口是什么，这种情况都会再次上演？历史还会重演吗？

Amin Vahdat：这些变革发生的速度——也许我在这方面研究得还不够深入。我的意思是，如果你想想第一次工业革命、电力、内燃机，你再想想太空时代、核能，你再想想信息时代，所有这些变革现在都来得越来越快，影响也越来越大。这是最新的一次。它是最新的，也是最大的。

所以我猜想，我不知道会不会是 10 年，但在未来 10 到 20 年的某个时候，我们将迎来下一次。

Jeff Dean：是的，我认为这是一件真正的大事，比你提到的之前任何一次变革都要大。原因在于它能应用到太多领域了，对吧？比如我们能用 AI 做的所有造福社会的伟大事业，像是为每个人提供更好的医疗或教育，它加速科学研究本身的能力将是无比巨大的，特别是如果你能实现无人参与的自动化实验，去真正探索不同科学领域中那些错综复杂的未知空间。它将引领我们在新事物上取得新突破，这些新事物或许不像 AI 这样具有普适性，但 AI 将成为推动这一切的引擎。

而这取决于我们所有人，我们要确保自己是在推动 AI 中那些对每个人都最有益的方面。同时我们也必须清醒地认识到，AI 确实有一些可能不太积极的方面，我们需要齐心协力去消除或减少这些负面影响，我认为这是每个人都应该铭记在心的事情。

Amin Vahdat：不过，作为一个搞基础设施的人，我可以满怀信心地预测一件事：无论未来如何，它都将需要海量的算力。

Jeff Dean：而且永远都会有瓶颈。

Amin Vahdat：我认为专业化定制将会变得越来越重要。

Jeff Dean：专业化绝对会成为重头戏。尤其是硬件的专业化定制。

Ben Gilbert：考虑到我们今天所处的时代，以及桌上摆着的这些“老朋友”，感觉在这里收尾简直再完美不过了。

（投稿或寻求报道：zhanghy@csdn.net）