DeepMind用语言游戏让大模型学AlphaGo自我博弈，数据限制不存在|alphago|deepmind|人工智能|智能体|游戏|苏格拉底

机器之心报道

编辑：泽南、蛋酱

自我博弈，很神奇吧？

我们终于朝着真正自主、自我完善的人工智能迈出了重要一步？

上周末，一篇 Google DeepMind 的论文引发了 AI 圈的关注。研究者引入了「苏格拉底式学习」，这是 AI 中递归自我完善的一种新方法。这种方法使系统能够自主增强其能力，超越初始训练数据的限制。通过利用结构化的「语言游戏」，该技术可以为实现通用人工智能提供了实用的路线图。

在该工作中，DeepMind 提出的框架围绕封闭、自给自足的环境，AI 系统无需外部数据即可运行。要实现目标，智能体必须满足三个关键条件：反馈与目标一致，广泛的数据覆盖范围，以及足够的计算资源。这种设计促进了独立学习，为通向 AGI 提供了一条可扩展的途径，同时解决了数据生成和反馈质量等挑战。

新方法的核心是进行「语言游戏」，即智能体之间结构化的交互、解决问题并以分数的形式接收反馈。这些游戏允许人工智能进行自我博弈，生成数据并完善技能，也无需人工输入。递归结构使系统能够自主创建和开局新游戏，解锁更抽象的解决问题的能力并扩展其能力。

最终的创新在于 AI 自我改造，智能体不仅可以从环境中学习，还可以重新配置其内部系统。这样可以消除固定架构带来的限制，为超过以往的性能改进奠定基础。总之，DeepMind 的研究强调了苏格拉底式学习作为创造真正自主、自我完善的人工智能的变革性步骤的潜力。

让我们看看这篇论文是怎么说的：

论文标题：Boundless Socratic Learning with Language Games
论文链接：https://arxiv.org/abs/2411.16905

考虑一个随时间演变的封闭系统（无输入、无输出）（见图 1）。系统内有一个具有输入和输出的实体，称为智能体（Agent），它也会随时间发生变化。系统外部有一个观察者，其目的是评估智能体的性能。如果性能不断提高，我们就把这对系统和观察者称为改进过程。

这一过程的动态变化由智能体及其周围系统共同驱动，但为了使评估定义明确，需要设定明确的边界：事实上，智能体就是可以明确评估的对象。同样，为了分离关注点，观察者被刻意置于系统之外：由于系统是封闭的，观察者的评估无法反馈到系统中。因此，智能体的学习反馈必须来自系统内部的智能体，如损失、奖励函数、偏好数据或批评者。

在这里，最简单的性能指标是一个标量分数，可以在有限的时间内测量，也就是在（一系列）偶发任务中测量。从机制上讲，观察者可以通过两种方式来衡量性能，一是被动地观察智能体在系统中的行为（如果所有相关任务都是自然发生的），二是通过复制和探测评估，即让智能体的克隆副本面对自己选择的交互任务。

在不失通用性的前提下，智能体内部的元素可分为三类：固定元素不受学习的影响，例如它的底层或不可修改的代码；瞬态元素不会在不同事件之间或不同评估之间延续（如激活、随机数生成器的状态）；最后，学习元素（如权重、参数、知识）会根据反馈信号发生变化，它们的演变会映射出性能差异。

可以通过隐含的生命周期来区分改进过程；有些改进过程是开放式的，可以无限制地持续改进，而有些改进过程则会在某个有限时间后收敛到其渐进性能。

自我完善的三个必要条件

DeepMind 研究者认为，自我完善是一种改进过程，但附加标准是智能体自身的输出（行动）会影响其未来的学习。换句话说，智能体在系统中塑造（部分）自己的经验流，有可能在封闭系统中实现无限的改进。这种设置对于强化学习社区（RL）的读者来说可能很熟悉：RL 智能体的行为会改变其学习的数据分布，进而影响其行为策略。

自我完善过程的另一个典型实例是自我对弈，其中系统（通常称游戏）将智能体置于玩家和对手的角色中，以生成带有反馈（谁赢了）的无限经验流，为不断增加的技能学习提供方向。从它与 RL 的联系中，我们可以得出自我完善发挥作用的必要条件，并帮助澄清有关系统的一些假设。前两个条件，反馈和覆盖度是原则上的可行性，第三个条件规模是实践上的可行性。

研究者考虑的自我完善过程的具体类型是递归自我完善，其中智能体的输入和输出是兼容的（即存在于同一空间中），并且输出成为未来的输入。与输出仅影响输入分布的一般情况相比，这更具限制性，但中立性更低，最常见的实例是将智能体输出映射到输入的（复杂）环境。这种类型的递归是许多开放式过程的属性，开放式改进可以说是 ASI 的核心特征。

这种兼容的输入和输出空间的一个极好的例子就是语言。人类的大量行为都是通过语言来介导和表达的，尤其是在认知领域（从定义上讲，认知领域是 ASI 的一部分）。正如查尔默斯 (2024) 和他之前几个世纪的理性主义者所言，语言可能足以进行思考和理解，而不需要感官基础。语言又同时具有抽象的巧妙特性，可以在共享空间中编码概念层次结构的多个级别。

在文章的其余部分，研究者使用「苏格拉底式学习」来指代在语言空间中运作的递归式自我完善过程。这个名字暗示了苏格拉底通过质疑对话和反复的语言互动来寻找或提炼知识的方法。但值得注意的是，这种方法并不是去收集现实世界中的观察结果 —— 这反映了系统强调的封闭性。

苏格拉底式学习的本质局限性

在自我完善的三个必要条件中，覆盖和反馈这两个条件原则上适用于苏格拉底式学习，而且仍然是不可还原的。为了尽可能清楚地说明这两个条件的含义，本节中忽略了第三个条件（规模、实用性和效率问题），而从长远的角度来考虑这种简化的动机：如果计算能力和内存继续呈指数增长，那么规模限制只是暂时的障碍。如果不是这样，考虑苏格拉底式学习的资源受限情景（类似于研究有界理性）仍能产生有效的洞察。

覆盖条件意味着苏格拉底学习系统必须不断生成（语言）数据，同时随着时间的推移保持或扩大多样性。在 LLM 时代，这似乎并不太牵强：我们可以设想，一个生成智能体初始化时拥有类似互联网的广泛分布，它可以生成永无止境的新语言表达流。然而，在递归过程中防止生成分布的漂移、崩溃或缩小可能非常困难。

反馈条件要求系统：（a）持续产生关于智能体输出（某些子集）的反馈，这在结构上要求批评者能够评估语言，（b）反馈与观察者的评估指标保持足够一致。这造成挑战的原因有很多：语言空间中定义明确、有依据的衡量标准往往局限于狭隘的任务，而人工智能反馈等通用性更强的机制则可以加以利用，尤其是在允许输入分布发生变化的情况下。

例如，目前的 LLM 训练范式都没有足以满足苏格拉底式学习的反馈机制。下一个 token 的预测损失是有依据的，但与下游的使用情况不够一致，而且无法推断出训练数据之外的情况。根据定义，人类的偏好是一致的，但却阻碍了在封闭系统中的学习。将这种偏好缓存到已学习的奖励模型中会使其自成一体，但从长远来看会被利用并可能出现错位，而且对分布外数据的影响也很微弱。

换句话说，纯粹的苏格拉底式学习是可能的，但它需要广泛的数据生成和强大且一致的批评能力。然而，当这些条件都具备时，其潜在改进的上限就会受到应用资源量的限制。目前已有的研究还没有为此制定出成功的方法，接下来的内容会就如何进行苏格拉底式学习提出一个具体但相当笼统的建议。

「Language games are all you need」

在该研究中，研究者认为 AI 的训练可以借鉴维特根斯坦的语言游戏概念。在其中，并不是让词语捕捉意义，而是让语言的互动性做到这一点。具体来说，语言游戏定义为一种互动协议（一组规则，可以用代码表达），它指定了一个或多个具有语言输入和语言输出的智能体（「玩家」）之间的互动，以及游戏结束时每个玩家的标量评分函数。

如此定义的语言游戏满足了苏格拉底式学习的两个主要需求。即，1）它们为无限制的交互式数据生成和自我博弈提供了一种可扩展的机制，2 同时自动提供伴随的反馈信号（分数）。

事实上，它们是覆盖和反馈条件的逻辑结果，几乎一直在被应用。如果将这个过程视为游戏过程，我们就立即可以意识到多智能体动态产生的丰富策略具有很大潜力。

另外，许多常见的 LLM 交互范式也可以被很好地表示为语言游戏，例如辩论、角色扮演、心智理论、谈判、越狱攻防，或在封闭系统之外，来自人类反馈的 RL 等范式 (RLHF)。

回到哲学家：我们能想象他们玩上几千年的语言游戏吗？相反，也许他们在玩多种语言游戏时更有可能摆脱狭隘的结果。维特根斯坦（又是他）也提出过同样的观点：他坚决反对语言具有单一的本质或功能。使用许多狭义但定义明确的语言游戏而不是单一的通用游戏，可以解决一个关键的两难问题：对于每个狭义游戏，都可以设计出可靠的得分函数（或批评家），而正确地获得单一的通用函数则更加难以捉摸（即使原则上是可能的，正如 Silver 等人所论证的那样）。从这个角度看，苏格拉底式学习的整个过程就是一个元游戏，它安排了智能体玩的语言游戏并从中学习（根据 Carse (2011)，这是一个「无限」游戏）。

研究者认为，原则上这一想法足以解决覆盖问题。具体来说，如果有观察者感兴趣的分布的智能体（例如，任务的验证集），就可以用来驱动元游戏中的探索。

正如苏格拉底本人的经历，苏格拉底式的思考过程并不能保证与外部观察者的意图保持一致。语言游戏作为一种机制，也没有回避这一点，但可以说，它降低了所需的精确度：我们所需要的不是一个在单个输入和输出的细粒度上保持一致的批评家，而是一个能够判断哪些游戏应该玩的「元批评家」：也许没有一个语言游戏是完全一致的，但可以做的是，根据它们是否（在玩和学习时）做出了总体上积极的净贡献，对众多游戏进行筛选。

此外，一个游戏的有用性并不需要事先评估，而是可以在玩过一段时间之后进行事后判断。与此相关，一个有益的不对称现象是，事后发现偏差的突发行为可能比设计游戏防止这种行为要容易得多。所有这些特性都是结构上的宽松形式，赋予了语言游戏框架巨大的扩展潜力。暂时跳出此处对封闭系统的假设：当我们实际构建人工智能时，我们几乎肯定不会乐观地相信对齐会得到保持，而是会尽可能仔细地持续检查这一过程，并可能在整个训练过程中对系统进行干预和调整。

在这种情况下，明确地将游戏分布（伴随着可解释的游戏描述和每个游戏的学习曲线）作为旋钮提供给设计者，可能是一种有用的抽象方法。

更高阶的递归

到目前为止，本文讨论了递归的最低必要形式，即一种将智能体（部分）输出反馈给自身的循环形式。在语言游戏的框架内，研究者还想到了另外两种递归形式。第一种思路是告诉智能体它正在玩哪个游戏，并让它选择切换游戏、切换到哪个游戏以及何时切换。

这与分层或以目标为条件的 RL 有关，为智能体提供了更多的自主权和更抽象的行动空间。在将更多责任转移给智能体的同时，与智能体外部的硬联线游戏选择过程相比，这种设置可以显著改善结果，但当然，这种额外的自由度可能会带来崩溃或错位的额外风险。

其次，由于游戏是可以完全用代码表示的交互协议，因此它们可以存在于语言智能体的输出空间中。一开始，它可以简单地生成现有游戏的局部变体，从而调整主题的难度水平，之后再对游戏进行重组，最终实现全新生成。这导致了语言游戏空间而非语言空间的二阶覆盖问题，需要通过过滤、优先排序或课程来解决。

这两种递归扩展的结合就是一个有能力的智能体，它可以通过游戏的生成和玩耍来玩完整的元游戏，即如何改进自己。这种元博弈虽然优雅动人，但却缺乏内部语言博弈的明确反馈机制，而且像学习进度这样的既定智能体指标是否足以长期保持覆盖和对齐特性，也是一个有待研究的问题。

递归的下一步，也是最后一步是递归自我改造，也就是说，智能体的行为会改变其自身的内部结构，而不仅仅是影响其输入流。这些方法的特点是可以以这种方式修改哪些内容（哪些内容保持不变），以及智能体可以进行多少自省，或者说可以访问其自身的工作原理。在极端情况下，一个完全自我反省的智能体可以观察和修改自身的任何方面，而无需间接操作。

原则上，这种类型的智能体具有最高的能力上限；由于渐进性能受到其固定结构的限制，解冻部分结构并使其可修改只会增加上限。尤其是，总有可能将新灵活参数设置为冻结时的状态，以恢复灵活性较低的智能体的性能（在不考虑学习动力的情况下）。

从这种角度看，过去关于如何设计自我参照系统的建议并不实用，但现代 LLM 在代码理解和生成方面的能力正在改变竞争环境，可能很快就会将这些想法从空洞转向关键。

参考内容：

https://x.com/kimmonismus/status/1862993274727793047