与谷歌Gemini核心负责人对话：数据即将耗尽，AI下一阶段的突破口在哪里？|大模型|天空|智能体|模态|知名企业|神经网络|科学|算法|谷歌

（关注公众号并设为标，获取最新人工智能资讯和产品）

全文12,600 字，阅读约需23分钟

在 AI 领域的最新一期深度对话中,著名播客主持人与 Drastic Research 副总裁兼 Gemini 联合负责人 Oriol Vinyals 展开了一场关于人工智能发展前沿的精彩讨论。作为 Gemini 项目的核心领导者之一,Vinyals 深入分享了当前 AI 模型从专用向通用演进的关键洞察。

在人工智能领域,我们正见证着模型能力的重大演进。从最初的单任务专用模型,到如今的 Gemini 这样的通用多模态系统,AI 正朝着更灵活和通用的方向发展。正如 Vinyals 所阐述的,这种进步涉及复杂的预训练(模仿学习)和后训练(强化学习)过程。这两个阶段的突破,为实现真正的通用人工智能奠定了重要基础。

让我们设想一个具体场景:如果我们希望让一个语言模型或视觉语言模型学会玩《星际争霸》,我们可以采取一种全新的方式。不同于开发一个专门的游戏 AI,这个模型可以像人类玩家一样学习 - 观看游戏视频、阅读攻略、参与论坛讨论,然后将这些知识应用到实战中。通过持续学习和实践,它最终可能会主动告诉你:"我已经掌握了这款游戏,要不要来对战看看?"

这种自主学习和行动的能力展现了 AI 向通用智能迈进的重要一步。它不再局限于预设的知识范围,而是能够主动获取、整合和应用新知识。当然,这种深度学习模式并非适用于所有场景 - 比如对于"今晚吃什么"这样的简单问题,我们显然不需要,也不应该等待模型花费数周时间来研究答案。

采访文稿

主持人Hannah Fry ：欢迎回来，Oriol，很高兴再次和你交流！

Oriol Vinyals：你好，谢谢你再次邀请我。

一、“Drastic Research”项目

主持人：在我们开始之前，你能介绍一下“Drastic Research”是什么吗？

Oriol Vinyals：当然可以！我经常告诉我的团队，要“drastic”思考，意思是不要仅仅局限于所有人都在关注的增量改进。我们需要大胆设想几年后可能发生的重大变化，然后将这些想法“回溯”到今天并付诸实践。所以，“drastic”就是这种激进创新的思维方式，也是我经常使用的词。

主持人：上一次见到你时，你还在研究一个能够使用键盘和鼠标完成任务的智能体，比如在“画图”中画画或玩《星际争霸》。现在看来，技术已经发展了不少吧？

Oriol Vinyals：是的，那时候的智能体基于一种非常通用但相对简单的机器学习原理。我们主要专注于让模型在一个特定任务上表现出色，当时采用了一种逐步提高任务难度的“课程式”训练方法。比如，上一次我们谈到的是《星际争霸》，这是一款非常复杂的现代战略游戏。而更早之前，DeepMind 则以《Atari》开创了风潮，这种游戏相对简单，比如只需左右移动挡板击球即可。但即便如此，这些算法被设计得非常通用，以便我们能够逐步攻克更复杂的任务。现在的模型不仅训练过程更高效，其适用范围也广泛得多。当年那些模型虽然复杂，比如下围棋或玩《星际争霸》，但它们的能力相对局限。如今的模型则可以广泛应用于更多领域，比如聊天机器人等。

主持人：当时你们的核心方法是强化学习吧？现在和那时相比，有什么不同呢？

Oriol Vinyals：算法层面，其实从 AlphaGo 到 AlphaStar 的核心算法是相似的。这些算法也与如今的大型语言模型或多模态模型的构建方式有一定共性。无论是过去还是现在，我们主要有两个关键阶段：第一个阶段是预训练，也叫模仿学习。这一步从随机初始化的权重开始，通过算法模仿大量人类数据，无论是游戏数据还是互联网中可用的知识数据。目标是在这个阶段尽可能好地学习并适配这些数据。权重可以理解为神经元之间的连接强度。神经元是计算单元，彼此通过权重相连。简单来说，一个神经元接收到其他神经元的信号后，根据这些信号乘以相应权重的总和进行激活。而训练模型的过程实际上就是调整这些权重。如果用一个类比的话，这是不是可以理解为神经元像管道一样，权重就像管道的宽度，水流则是信号。你可以想象有数百万个神经元和数十亿甚至数万亿条“管道”，我们的计算资源大多花在训练这些网络上，尤其是语言模型的预训练阶段。

主持人：那么预训练阶段完成后，你就有了一个庞大的网络。接下来，像 AlphaGo 或 AlphaZero 的方法是让模型与自己对战，对吧？

Oriol Vinyals：是的，这个模型在模仿学习后已经能够做出看似人类的操作，比如写出通顺的句子，或者在游戏中合理移动棋子。但下一步，我们会让模型通过与自己对战进一步优化，从而超越人类水平。但是目前的模型并没有学会将这些行动与奖励关联起来。这就是强化学习或者后期训练的作用，也就是训练的第二阶段。例如，你可以通过模仿互联网上的诗歌来写诗，这只是模仿平均水平上的诗歌样式。但问题是，我只想要优秀的诗歌。要做到这一点，你需要进一步调整模型中的“管道”，基于某种奖励信号，比如给整个诗歌打分，可能是0或者1。如果是一首平庸的诗，得分是0；如果是好诗，得分是1。同样可以用游戏的例子来说明，这是我们传统上使用强化学习的领域。如果赢了比赛，得分是1；输了，得分是0。然后我们根据这些得分进一步调整模型的权重。在这一阶段，我们不再只是模仿人类，而是试图超越人类的水平，比如创作出完美的诗歌，或者下出完美的棋局。在语言模型中，这个强化学习后期训练的阶段通常时间较短，因为不像在传统的棋类游戏中有清晰的胜负信号。在这些游戏中，自对弈可以明确区分输赢，而语言模型缺乏类似明确的奖励机制。所以，当这个阶段完成之后，这些就是模型背后所有的复杂过程。然后，你就会说，“停！保持现状。”

主持人：团队会“冻结”整个网络的快照，这就是最终用户能够访问的内容，对吧？

Oriol Vinyals：是的。当这个惊人的过程完成后，权重的配置就变得非常宝贵。你可能花了数月时间来调整和优化一切，而一旦训练完成，这些权重就不再改变了。训练结束后，我们会尽可能让模型高效运行。例如，如果发现某些神经元并没有什么作用，可以将其移除，这样模型运行速度会更快，成本也更低。作为用户，大家会使用同一套训练好的权重。这就是我们所谓的“Gemini 1.5 Flash”，它代表一组已经冻结的权重，不会再进一步调整或训练。这两个步骤从 AlphaGo 到 AlphaStar 再到当前的大型语言模型基本一致。当然，具体细节和领域的发展有所变化，但核心原理几乎没有改变。不过在底层架构上，比如说 DQN（Atari 的例子）、AlphaGo 的算法，以及大型语言模型，它们的架构还是不同的。数字大脑的构建需要多个组件，其中一个关键部分就是架构。从早期的神经网络到现在的 transformer，它们能更高效地从数据中学习。DQN 时期我们还没有 transformer，现在 transformer 几乎成了主流。不过，从 transformer 到今天的模型，大部分进展其实是小的改进。例如，AlphaFold 也依赖 transformer，但团队可能花费数年时间在细微调整上，比如移除一部分神经元、增加一层结构、或者让网络变得更宽。这些细微的改变有时会极大地影响性能。

二、模型实现自主决策

主持人：目前已经实现了这么多成就，目标正如我理解的那样，是实现更多的自主行为，让这些模型能够做出自主决策。这些成就如何帮助实现这一目标？

Oriol Vinyals：是的，我们可以深入探讨当前的趋势。我们称之为大型语言模型，但它们实际上是多模态的。之前的某一期节目中，我们详细讨论了多模态的优势，比如添加一张图片，然后进行提问或后续交互等，这种能力非常强大。

主持人：所以这个模型会不断改进它对输入的推理能力，比如“这张图片是关于什么的？”“用户在问什么？”“我能写出一首更好的诗吗？”或者“我能让它更长一些吗？”——像这样的互动是我们现在都能体验到的。但这些只是其中的一部分，我们可以把它当成核心处理器（CPU），并在其基础上添加更多的功能。比如，假设这个模型可以为你做研究，这会怎样？

Oriol Vinyals：一个例子是，我们以前就已经在考虑这个问题了。我可以要求一个语言模型或者视觉语言模型学会玩《星际争霸》。这和直接创建一个专门玩《星际争霸》的智能体完全不同。另一个方式是，这个模型可以自己上网，观看关于游戏的视频，下载游戏并与之交互，从中学习规则和策略。它还可以在线搜索资料、浏览论坛、阅读玩家讨论，然后回到游戏中改进自己的弱点。经过几周的学习，它可能给你发一封邮件说：“我现在已经学会了玩《星际争霸》，我们可以来对战一下。这样的场景离我们并不遥远。这种能力让模型可以采取行动，学习任何可用的新知识，这是非常强大的想法。这种能力极大推动了模型的通用性发展，也让我们觉得 AGI（通用人工智能）的目标似乎更近了。如果我理解正确的话，目前的大型语言模型或者多模态模型是一个核心，而下一步的目标是基于这个核心，让它“解锁”更多的能力，自主行动。如果它能访问所有的知识，并利用时间进行深入研究，提出假设、编写代码等等，从而回答非常复杂的问题，那么可能性将大大扩展。当然，这并不适用于所有场景。比如，如果你问“我喜欢米饭，今晚该做什么吃？”它没必要花三周时间深度研究答案，否则你大概不会很高兴等这么久。

主持人：我喜欢这个概念：核心处理器再加上“数字身体”。现在有了“电脑”（electric brain），接下来是赋予它一个“数字身体”。说到“电脑”和核心处理器的概念，让我问一些具体的问题。我猜我们应该聊聊 Gemini，对吗？Gemini 本质上就是我们在谈论的多模态模型。我知道大型模型的一个主要发展方向是不断扩展它们的规模，让它们越来越大。你认为这种通过扩展规模取得的效果已经达到瓶颈了吗？

Oriol Vinyals：这是一个非常重要的问题。我们研究过随着模型规模变大（比如增加神经元的数量），它们在一些任务上的表现如何提高，这些任务有明确的评估指标，比如机器翻译。这是一个非常容易理解的例子：当我们增加神经元的数量，从数百万扩展到数十亿甚至可能的数万亿时，模型的翻译效果会持续提升。不过，即使在这些研究中，也会发现一些规律。你可能觉得性能提升看起来是线性的，但其实你需要用对数轴来表示。这意味着，如果过去三年我们看到了某种程度的进步，不要期待未来三年还能取得相同的进步。因为达到相同的提升实际上是指数级困难的。这也意味着计算资源的投入虽然在以超线性的速度进步，但可能无法完全跟上这些趋势，你会看到某种程度的边际递减效应。换句话说，随着参数数量的增加，提升性能可能需要 10 倍的投入，而这会让我们面临压力——也许我们不能再单纯依赖扩展模型规模，而需要探索其他方式来改进模型。

主持人：我常给学生举的一个例子是，如果你有一个非常乱的房间，刚开始整理的前10分钟就能看到明显的效果，比如收拾脏盘子、放好脏衣服之类的事情。但如果你整理了7个小时，再多花10分钟可能就几乎没有什么效果了。这不就是我们目前的处境吗？

Oriol Vinyals：是的，这个类比非常贴切。事实上，这个类比甚至可以延伸到模型性能上。即使模型性能已经非常好，比如你希望它100%准确，永远不会生成虚假的内容，但我们知道，如果对模型进行深入测试，它仍然可能生成一些不真实的内容。而且要达到最后这一小步的目标也非常困难，这为大规模部署带来了一些有趣的挑战。

三、数据、算力和模型规模

主持人：所以，我明白你提到的边际收益递减的问题。那么，在改进这些模型方面，是不是只有数据、计算能力和模型规模这几个杠杆可以利用？

Oriol Vinyals：确实，如果你冻结了架构，比如说在接下来的一年中没有任何创新，只是依赖更好的硬件进行扩展，这种策略的趋势看起来可能还不错。但在 Gemini 项目中，我们有其他的创新，比如从如何组织提供给模型的数据，到架构的细节，再到训练过程的运行方式以及运行时间的长短。我们还需要决定提供给模型的数据类型、过滤哪些低质量数据、提供更多高质量数据等等。所有这些都属于超参数的调整。此外，我们还非常仔细地研究算法的改进，因为训练模型的过程非常昂贵，所以我们必须确保每一项创新都值得投入。当我们准备好下一代模型时，不仅仅是依靠规模的提升，还会有算法层面的突破。但关于扩展的问题，你提到的规模好像没有限制。理论上，计算能力的投入也没有限制，但数据的规模是有限的。人类的语言总量是有上限的。实际上，硬件节点的数量是有限的。因为这些模型无法在单个芯片上运行，所以需要多个芯片组成的网络进行通信。这里存在物理限制，比如光速等。所以当模型规模变得过大时，训练的效率也会下降，这可能从硬件资源利用的角度看并不值得。

另一个关键问题是，预训练需要模仿所有可用的数据，但这些数据并不是无限的。如果我们假设训练了所有的数据——也就是所有人类写过的、读过的东西。互联网上的所有内容。实际上，我们已经开始意识到数据量正在接近枯竭。现在，有一些方法，比如生成合成数据。我们可以用不同的方式重写现有的数据，比如以不同的语言来表达这些知识。目前互联网上大部分内容是英语，大约占60%，具体比例我不确定。但通过重写相同的知识，我们可能可以拓展数据量。这是一个很多人开始投入研究的领域，因为当数据枯竭时，扩展法则的效果会变得更差。

主持人：所以，比如说，你可以让 Gemini 自己生成一个版本的互联网，然后用这个版本来训练新的 Gemini 模型？但是这样的话，会不会有一种风险，就是如果模型不断使用自己生成的输出作为训练数据，可能会形成一些不利的反馈循环？

Oriol Vinyals：这是一个很好的问题，这种方式确实存在潜在问题。从表面上看，让模型重新生成整个互联网并不是一个好主意。数据集的内容是有限的，而重新生成的内容如何创造出新信息？这是个未知数。这种方法可能在一定程度上有帮助，因为目前的机器学习算法并不能完全从互联网中提取所有信息。我们的算法虽然很优秀，但仍然不完美。

主持人：我想再深入思考一下这个想法，因为它真的很有趣。因为很显然，如果你不加以考虑地进行操作，新的版本可能会继承原有的偏见，而再基于这个版本的训练又会变得更加偏见化，最终就会离人类的原始版本越来越远。但你提到的似乎是，在最初的人类互联网中其实嵌入了一些概念性的关联。如果我们能够提取这些关联——我几乎可以想象它就像人类概念的“E=mc²”。如果我们能够仅仅基于这些原则生成新的数据，这似乎会更现实。

Oriol Vinyals：是的，完全正确。我认为这也是关键问题所在：这些语言模型只是在线复制已有内容而无法创造新的东西？还是它们能够真正学到一种世界模型（world model），从中提取的原则有可能超越数据本身的局限？在我更乐观的观点里，我倾向于相信我们可以突破目前的数据限制，推动边界更进一步。不过，也有一些数据来源我们还没有真正取得突破，比如视频数据。视频数据量非常庞大，但我们还没有看到一个时刻能完全利用这些视频数据，尽管其中可能蕴含大量的知识，比如物理规律、世界运行的方式等，即便视频本身并没有关联的文字信息。我们还没有真正挖掘这一数据源的潜力。

主持人：它是不是无法以这种方式工作？还是你们也不确定？

Oriol Vinyals：确实不确定，但从感觉上来说，它应该是可以的。毕竟我们人类的学习方式也类似。虽然语言学习在早期阶段很重要，但我们也通过观察三维世界等方式来学习。所以，这种方式应该还能提取更多的知识。显然，我们在连接视频中的概念方面已经做得相当不错了。从测试模型的表现中可以看出，它可以完成一些很棒的事情，比如看一个小时的视频，然后提取出其中三个有趣的时刻。但模型本身是否直接使用了这些信息？可能还没有完全做到。

四、多模态模型

主持人：我很喜欢这个话题。我们之前和 Jeff 讨论多模态模型时也提到，如果让这些模型看完所有存在的视频，它能否真正提取出像“重力”这样作为概念的含义？但如果我理解正确的话，你现在描述的是：模型目前可以告诉你视频中有什么，但它还无法说出“E=mc²”这样的原理。或者，如果你展示夜空的图片，它也无法像人类天文学家那样预测行星的运动，对吗？

Oriol Vinyals：是的，完全正确。目前的“捷径”是我们在训练图像和/或视频数据时，几乎总会有与这些模态相关联的文字表示。这可能是描述图像或视频内容的标题、说明等。这当然很了不起——你可以提供一张带有概念化小绘画的作业图片，它会基于这些逻辑进行很好的推理。但我想说的是，如果我们仅仅提供没有任何文字解释的视频数据，能否训练出一个模型让它理解发生了什么？甚至从某种意义上说，模型可以从中“推导”出一种语言——虽然不一定是我们的语言——并提取出其中的概念。这种情况目前还没有发生，但很可能会实现。

主持人：模仿阶段，也就是我们刚才讨论的内容，但之后还有强化学习阶段。我知道像 AlphaGo 和 AlphaZero，以及其他许多模型，都是通过自我对弈变得更强的。这种方法在这里也适用吗？

Oriol Vinyals：是的，这是目前一个主要的开放挑战——不仅是扩展预训练，还有后期训练或强化学习的扩展。在游戏中，强化学习的一个优势是规则是明确定义的。如果你赢了，你就知道自己赢了。有一个程序会验证，比如你下国际象棋，如果是将死局面，它会确认：“好的，将死了。恭喜，你赢了比赛。清晰的标准。但在语言模型中就复杂得多了。比如，这首诗比那首诗更好吗？即便在我们人类之间，这也是一个充满争议的话题。所以，广泛性使得精确评估变得非常困难。再比如，这是一个更好的电影摘要吗？或者，这是这个视频中最有趣的部分吗？这些都很难量化。不过，我们可以尝试，也确实在尝试。我们训练一个模型，然后根据一些人类的偏好，大致让模型去归纳总结。比如，当我要求一个模型批评它自己的输出时，它可能在80%的情况下表现得不错，这并不算差。它能给出一些信号。但问题是，你在一个不完美的评估指标上开始训练模型。此时，模型会尝试去“利用”这个奖励的弱点。举个例子，如果在国际象棋中有一个漏洞，比如说如果兵在某个特定位置就总是赢，而这是一个正常玩家绝不会采用的走法，那么算法可能会探索出这个漏洞并利用它。突然之间，你会发现，“哦，如果我把第一个兵移动到这个位置，我就赢了。”显然，算法掌握了赢棋的方法，但从人类的角度来看，它的棋艺表现可能很糟糕。

主持人：这基本上就是一种“淘气的 AI”，对吧？

Oriol Vinyals：是的，这就是挑战所在。模型可能更倾向于发现规则的漏洞，而不是真正学会什么是“好的诗”。

主持人：那能不能引入另一个玩家，比如说，另一个模型来作为最终的裁判？

Oriol Vinyals：这是一个不错的建议，但问题是，你要如何训练这个裁判模型呢？我们对“好诗”的概念只有有限的认知，可能需要依赖一些专家来比较两首诗的好坏。但我们能用来训练裁判的这些数据是非常有限的。最可靠的标准当然是请教真正的专家。如果可以的话，我们会这么做。但这显然不具备可扩展性。想象一下，如果模型每三秒有一个参数更新，而我们需要专家去审阅一万个结果，这样的效率太低了。而且，我们也没有足够的数据来训练一个足够好的奖励模型。所以，尽管有一些想法可以尝试，但问题的核心在于我们无法获得真正的“地面真相”（ground truth）。

五、模型推理能力

主持人：那么，如果这是核心部分，也就是“电子大脑”，现在我们正在构建“数字身体”，你希望这个数字身体具备哪些能力呢？比如推理能力？因为在这方面也有很多研究，对吧？

Oriol Vinyals：当我们开始思考如何为这些模型提供有限的访问权限，让它们能够超越已经冻结的权重，去获取新的知识或者执行比简单预测上下文中下一个词更复杂的任务时，一些显而易见的能力就浮现出来了。一个很自然的想法是让它们能够访问搜索引擎，这正是 Google 的强项。另外一个是让它们能够运行自己编写的代码。当然，更广泛一点的能力可能是让它们能够与具有互联网访问权限的浏览器交互。但同时，我们必须非常小心，要给这些环境加上“沙盒”保护机制，以确保即便模型还不够完善，它们也不会执行任何意外的操作。这涉及整个安全性的维度，当模型的能力超越其训练数据时，这些问题变得相当有趣。如果仅仅是畅想可能性，赋予模型这些工具后，它们突然间可以执行超越当时训练语料范围的更高级任务。比如，它们可以利用最新的新闻来解释或总结昨天发生的主要事件。这种能力需要通过工具赋予模型。

主持人：那么推理在这一切中是如何发挥作用的呢？

Oriol Vinyals：推理确实是一个有趣的部分。比如，我刚才描述的情景可以总结为：我想知道昨天发生了什么，然后可能会个性化地向模型描述我的需求，比如：“我是 Oriol，我对这些话题感兴趣，我的政治观点是这样或者那样，请给我一个正面的新闻总结。模型可能会搜索并检索所有相关的新闻，然后根据我的需求生成一个让我喜欢的结果。如果我不满意，还可以反馈说“我不喜欢这个”或者“这个笑话不好笑”。通过一些对话迭代，模型会调整输出。推理的作用则是模型可以决定哪些中间步骤有助于生成更好的答案。比如，假设 Google 搜索检索到了100个新闻来源，模型可能不会直接尝试总结所有的内容，而是先为这100篇文章逐一生成摘要。不过，这些摘要是给模型自己用的，而不是直接展示给用户的。

接下来，模型可能会决定将这些摘要按主题分组。如果发现某篇文章看起来可疑，可能会进一步上网检查是否有论坛讨论这篇文章的可信度，比如作者背景是否可靠等等。模型可以通过多个步骤进行研究，甚至持续较长一段时间。最终，当模型认为自己已经有了一个高质量的答案时，才会生成几句话的总结给用户。但在这之前，它可能已经对信息进行了更深入的处理。推理时间的计算能力是一个非常重要的因素。我们希望，给模型更多的时间，它就能更好地总结新闻、更好地写诗、当然也能更好地做数学。这实际上是另一个扩展模型能力的方向，我们正在尝试解锁这个能力，希望它能突破纯粹预训练所面临的规模限制和规律性约束。

主持人：这是否也包括计划能力？比如，模型可以查看你的日程表，计算你的发薪日是什么时候，也许知道一月份的促销快到了，然后告诉你推迟几天预订假期，这样更划算？

Oriol Vinyals：这可能会变得非常复杂。不过，确实，当你将个性化因素和其他正在进行的事情都考虑在内时，模型需要从更多信息源中收集数据，然后给出最佳答案。这就不仅仅是回答“天空是什么颜色”这样简单的问题了（尽管即便是这个问题也并不那么简单）。举个例子，我们早期的一篇论文中就用过这个例子：语言模型可以回答类似“天空是什么颜色”的问题，太神奇了，对吧？你不需要显式编程，它就能给出答案。但实际上，如果你进一步思考，这个答案也非常微妙——比如“在什么星球上？”“一天中的什么时间？”“天空有没有云？”等等。所以，思考和计划确实是这些模型可以做到的事情。

六、AI具备系统1和2能力

主持人：：这让我想起了2019年我和 Demis 谈话时的一个话题。他提到了 Kahneman 和 Tversky 关于人类大脑有两种思维系统的观点：一种是快速、直觉驱动的，另一种是慢速、计算型的，用于做数学或下棋。Demis 当时说第二种思维方式（慢速计算型）是我们传统上用计算机更容易实现的。而现在我们也开始看到更快的直觉型思维。但你说的好像是将这两者结合在一起，对吗？

Oriol Vinyals：是的，没错。Demis 可能提到的是“系统2”（System 2），这是一种需要更多反思的思维模式。在游戏中很明显，比如有时你会直觉地觉得“这步棋看起来不错”，然后就下了。但如果你多花点时间思考，可能会找到更好的走法。现在的挑战在于，由于这些模型的方向非常广泛——它们几乎可以做任何事情，真的任何事情。你可以上传一张图片，讨论新闻等。所以，关于如何实现更深层次的思考，这在很大程度上是领域特定的。这就引出了一个问题：该怎么做？有一个我喜欢的答案是，这些模型本身已经非常通用了。如果要在这个通用能力的基础上增加思考能力，就需要一种通用的思维方式。所以，我们可以用模型本身来生成它应该如何思考的方法。模型可能会得出自己的逻辑，比如“我要先为每篇文章写一个摘要”，“然后我会做这个和那个”。这一切并不是我们编程显式告诉它的，而是模型自己生成的。这是一种非常深刻的见解。当然，这是不是唯一的方式？是不是最好的方式？还为时尚早。

主持人：好，那让我回想一下五年前（2019年）当时看起来非常重要的一些事情。那时很多研究灵感都来自神经科学。我想，从某种意义上说，我们现在谈到的计划和推理，记忆也是另一个非常重要的话题。这方面有进展吗？毕竟人们常谈论“长上下文”和“短上下文”，从某种意义上说，这也算是一种工作记忆，对吧？

Oriol Vinyals：是的，现在确实有一些技术可以应用到语言模型中，至少有三种方法可以解释这个问题，而且相对容易理解。第一种方法是通过预训练步骤来构建一个系统，这一步本质上就是一种记忆化的过程。模型通过权重和架构的组合来“记住”互联网上的信息。第二种层次是，正如我之前提到的，可以给模型提供一个像 Google 搜索引擎这样的工具。这可以被类比为神经科学中所谓的“情景记忆”（episodic memory）。对于人类来说，这种记忆可能是关于很久以前的事情，比如我可能模糊记得我第一天在 Google 的情景：一些片段，比如一个房间、某个人等等。这种记忆往往是不太精确的，但它确实存在。很有趣的是，这些模型可能并没有像人类一样的限制。比如，你可以找到一篇许多年前的文章，这篇文章中的所有图片和内容都可以完美地被重新构建。这种“情景记忆”在我们将强大的搜索引擎整合到模型中时，已经得到了明显的体现。

第三种记忆模式可以称为“工作记忆”，实际上包含了我之前描述的整个思维过程。比如，我们处理每一篇新闻文章，然后想要创建摘要、发现它们之间的关系或批评其中一些内容，这时就需要工作记忆。工作记忆相当于一个临时的“便笺本”，存储摘要和发现的问题。当我们提到“短上下文”或“长上下文”时，通常指的就是这一部分，即工作记忆。如果模型只有一千个 token 的上下文，那么它无法处理太多内容，可能只能检索文章而无法有效地总结它们。但如果上下文窗口很大，那么模型可以进行更多的推理和关联，这将带来更多可能性。实际上，2024年的一个突破就是实现了数百万个 token 的上下文，这解锁了许多新功能。比如，你可以上传一部电影或一段非常长的视频，然后进行详细的分析和总结。上传过程类似于“情景记忆”，而能够将所有内容存储到内存中并进行关联分析，则是工作记忆的体现。

七、模型无限记能力

主持人：更长的上下文窗口总是更好吗？因为从神经科学的角度来看，人类的工作记忆是有限的。有时候我们会觉得“大脑装满了，无法处理更多信息”。

Oriol Vinyals：有时候人脑的确是我们的灵感来源，但计算机显然有它的优势。我们应该基于它的强项来构建能力。比如，计算机可以记住整个维基百科，而人类不行。但如果模型能够做到，这就带来了新的能力。当然，即使是对神经网络来说，信息过多可能也会让系统变得混乱。所以，我们可能需要压缩信息，而这方面人类大脑的记忆检索方式可以带来一些灵感。

主持人：这就是为什么你在领导 Drastic Research 项目。

Oriol Vinyals：是的，我们希望这些模型能够实现一些鼓舞人心且具有前瞻性的功能，同时还要研究技术的主要限制，并激励团队围绕关键组件寻找解决方案。

主持人：但你们已经做出的一些选择显然是成功的，比如 Gemini 的能力和智能代理功能。最近也有许多令人目眩的新功能发布，对吧？我们能聊聊其中的一些吗？也可以谈谈这些新功能如何体现我们之前提到的各种技能。

Oriol Vinyals：是的，我们围绕我们最先进的 Gemini 模型建立了许多系统。最近我们发布了 2.0 版本，这是一个代际性的飞跃。即使我们不再单纯通过扩展规模来提升模型能力，我们仍然可以提高质量。这些模型现在速度更快，成本更低，同时性能更好。所以基本上，Gemini 变得更好了。，但不仅仅因为我们扩大了规模，这一点很重要。

主持人：那么，关于你们为 Gemini 增加的智能代理功能，可以多说一些吗？

Oriol Vinyals：当然，我们现在推出了一个可以在 Chrome 中使用的智能助手。你可以让它帮你完成一些复杂的任务。有些任务我自己其实既喜欢又讨厌，比如计划旅行，寻找酒店或航班之类的。这些任务的某些部分非常重复，我希望它们可以被自动化，但同时我又不想完全脱离这个过程。我们推出的功能希望能够自动化某些琐碎的步骤，比如需要多次点击的操作，让这些步骤变得更加流畅。这个智能助手可以根据你的请求，通过“思考”和“操作”来完成任务，比如点击链接等。这既是一个研究挑战，也是一个机会，因为它涉及一个非常通用的环境和一个非常通用的代理模型。我们早期的原型中，比如让模型在浏览器中玩游戏，它可以找到一个网站并开始玩。这种连接回到了 DeepMind 的起点。但不同的是，过去这些游戏是专门设计的，环境是固定的。而现在，整个互联网都是模型的“游戏场”，这非常广泛。所以，模型实际上可以完成类似过去使用键盘和鼠标的操作，非常相似的事情,甚至这些操作都非常相似。模型理解屏幕，并根据你的请求决定点击哪里。这些操作与以前的通用游戏中的交互方式非常相似。但不同之处在于，过去的目标是单一的，比如完成一个游戏。而现在，目标范围扩展到了整个互联网。

主持人：我能想象它现在能做什么。比如，它能查看你的日程表，你可以告诉它“明年我要度假”，然后它可以根据你的日程安排、预算等因素，帮你找到最合适的时间和地点，对吗？

Oriol Vinyals：是的，这些模型距离能够完全自动化这些任务并不遥远。现在的关键是如何让它们更好、更安全。这需要很多步骤。但如果我们快速展望未来，任何人类可以在浏览器上完成的任务，原则上这些模型都可以做到。通过改进它们的理解能力和推理能力，模型将变得更快、更高效，在某些情况下甚至比人类更擅长这些任务。这就是我们的愿景。这些还处于非常早期的阶段，但非常令人兴奋。我相信，明年我们会看到很多围绕这种将语言模型与浏览器或计算机更广泛集成的想法进行的实验。

主持人：那关于编程呢？

Oriol Vinyals：编程也是一个非常好的例子。我们正在推出一些面向软件工程的工具。编程通常不仅仅是“给我一个关于代码问题的完美描述，然后让我写代码并测试”。它更像是一个迭代的过程：你需要编写代码、运行代码，反复改进。因此，我们也在从智能代理的角度推动这项能力的发展。游戏同样很重要。游戏是开发强大算法的一种手段，同时也很有趣，特别是当这些强大的多模态模型开始理解游戏时，它们可以帮助用户在游戏过程中获得乐趣，比如提供建议或者讲一些与游戏相关的笑话。因此，我们也在尝试开发类似“游戏助手”的功能。

八、无限接近通用智能

主持人：听起来所有这些功能让人觉得我们已经非常接近通用智能了。你觉得我们离 AGI（通用人工智能）还有多远？

Oriol Vinyals：这是个好问题。我最近就在想这个问题。如果10年前，甚至5年前，有人拿出我们现在的模型给我，并说“这是一个来自秘密实验室的模型，你来试试看看它是否接近通用智能”，我可能会说：“哦，是的，这个模型来自一个 AGI 已经发生或者即将发生的未来。但当你离目标越近，你就会发现更多问题，比如模型可能会产生幻觉（hallucinate）。这当然是一个非常重要的问题。但如果你放大来看，会觉得它确实已经很接近了。

主持人：那么 DeepMind 的使命——“解决智能问题”，最终的目标是超越人类的智能，甚至是超级智能。你认为单纯通过扩展规模就能实现吗？还是需要其他的突破？

Oriol Vinyals：Google DeepMind 的使命确实是通过科学推进智能的边界。最近一个很好的例子就是 AlphaFold。从领域的角度来看，我们已经看到了一些狭义但超级智能的系统，比如 AlphaFold 专注于蛋白质折叠问题，这一领域的成就证明了这种方法的价值。我认为，未来我们可能会在一些特定领域看到更多这样的超级智能系统，即便是这些通用模型的能力也需要一定的专业化。但这种专业化是值得的，比如解决蛋白质折叠问题显然是非常有意义的。所以，这种方法是一个很好的测试工具。同时，我们非常有优势，因为我们有完整的科学团队在研究非常有趣的问题。如果将语言模型与更科学化的环境结合，比如模拟器、定理验证器等，是否需要一些离散性的突破才能推动其他领域的进展？我认为可能不需要类似 transformer 的另一种突破。通过更好的执行、规模化一些想法，我们可能会在数学等领域看到一些令人惊叹的进展，比如模型能发现数学家也感兴趣的新定理。这些成就并不是意外，而是通过精心设计和逐步扩展实现的。

主持人：确实有趣的是，最早的突破似乎总是在有明确“真相”的领域，比如科学。蛋白质折叠显然是有明确答案的。

Oriol Vinyals：是的，我也希望我们能在其他领域以超越人类的方式取得进展。比如，你可以想象一个由这些强大模型驱动的科学顾问，它不一定是发现了某些新东西，而是挑战了你的假设，让你跳出固有的思维框架，从而让你的创造力达到一个你本无法到达的地方。这在某种意义上也可以被称为超人类的表现。所以，这些方向绝对是有潜力的，但也更难定义如何奖励这种行为。

主持人：这真是太迷人了，今天的讨论中确实有很多“drastic”的内容。

Oriol Vinyals：是的。

主持人：非常感谢你来参加这次对话。

Oriol Vinyals：谢谢，我也很高兴参与。

drastic思维突破增量改进的限制放大镜效应既要保持信心也要保持清醒多维度突破不只依赖规模的扩大【往期回顾】

看到很多读者在问"如何开始AI转型"，我们建了个实战派AI团队（成员来自复旦、浙大、华为、阿里等），专注帮企业做"轻量级"AI落地：