强化学习之父Richard Sutton：AGI研究的下一个范式|神经网络|科学

编译：OneFlow

翻译：张雪聃、林心宇、刘乾裕

OpenAI下一代GPT近期被爆遇到瓶颈，这让“Scaling Law撞墙”的声音变得更响，尽管业内对此争论不休，但现实情况是，大模型确实不再像年前那样有突飞猛进的进展。

作为启发大模型领域提出Scaling Law的研究者，强化学习之父、阿尔伯塔大学教授Richard Sutton在2019年发表了后来被AI领域奉为经典的The Bitter lesson。在这篇文章中，他指出，AI研究在过去70年的一大教训是过于重视人类既有经验和知识，利用大规模算力才是王道。不过现在，他也不时发声称，AI社区过于沉迷深度学习，通过语言大模型方向来实现智能没有前途。

此前，他在《》一文中指出，实现AGI需要明确的目标和一个世界模型，并利用这个模型来制定行动计划以实现目标。

只靠当前的深度学习显然无法实现这一目标。在Amii（加拿大阿尔伯塔机器智能研究所）近期的视频访谈中，他批评深度学习完全主导了这一领域的研究，却忽视了它的局限性，这让他感到失望，不得不自己下场研究。

他认为，深度学习做的是瞬态学习，在学习一个特定的阶段后不再学习，他呼吁研究者要应该研究在现实环境中持续学习和适应的系统。对此，他最看好持续学习，也就是进行元学习、表示学习、学会如何学习、学会如何泛化、以及构建状态表示特征。这个过程将是一种全新的深度网络学习方式，他称之为动态学习网络。

在这一期访谈中，Richard进一步阐述了持续学习，并对年轻研究者给予了研究建议。正如他反对一股脑投入热门的深度学习研究，他希望研究者对流行趋势保持中立心态，选择一个既重要又可能出成果的问题。

（本文由OneFlow编译发布，转载请联系授权。视频：https://www.youtube.com/watch?v=NvfK1TkXmOQ）

1强化学习研究的早期灵感

Alona Fyshe（主持人）：最初你为什么开始会去研究强化学习，哪方面吸引了你？

Rich：我一直对那些能与外界互动并从中学习的系统很感兴趣。我们先有一个目标，把它形式化为一种奖励，这就是强化学习要做的事。

令人惊讶的是，回顾人工智能领域，我从1970年代入行到现在，真正涉及到系统与外界互动、从中学习并拥有目标的内容并不多。甚至，在控制论的早期以及整个模式识别和监督学习的过程中，那些系统都没有目标。它们只是试图识别一种模式，这固然是智能的一个重要部分，但它们并不会为了达成某个目标而与外界互动。刚开始研究时还没有强化学习，没人在做这件事，我需要自己去开创这个领域。

Scott Lilwall（主持人）：有没有某个特别的时刻，让你有种“具有明确目标的系统就是我想研究的方向”的感觉？

Rich：这是一个循序渐进的过程。我们研究了人们之前研究过的所有不同东西，比如模式识别、控制理论等等。我们一直在寻找那种能让系统去尝试达成某个目标的研究方向。当时在Bandit（指“多臂老虎机问题”，研究在多个选择中如何通过探索和利用最大化收益的决策问题）这个问题一直存在，你不断采取行动，直到获得最多的奖励，但也仅此而已，这些问题并不会告诉你 “我记得在这种情况下应该这么做，在那种情况下应该那么做，以便达成我的目标” 。Bandit只是重复做同一件事，是无状态的。

Alona：为什么一开始所有的重点都放在预测上？

Rich：根据我对历史的理解，其实一开始并不这样。他们最初是想通过与世界互动来实现目标，然后逐渐转向了模式识别，因为模式是清晰而简单的，然而他们渐渐地忘记了一些非常早期的东西。1954年，B.G. Farley和W.A. Clark谈到了试错法，然后逐渐发展为监督学习。这是一条清晰的简化的道路，一直都是这样。

Alona：世界是什么？它是某个特定构建出来的世界？

Rich：世界就是我们与之互动并向其发送信息的地方。世界本身就是被构建出来的，我们向世界发送信息，世界也向我们的眼睛等感官反馈信息，所以，我们可以理解我们向其发送信息并接收信息的整个过程。关键在于构建和转换模型，这样你就能进行规划，如果你能够规划，并通过反复试错来学习，这就是我对思维的理解。

线性与非线性的两难选择

Alona：在当前的强化学习背景下，你有什么想法？

Rich：描述这些的唯一方法就是不谈强化学习，而是谈整个人工智能，人工智能中需要什么、发生了什么、没有发生什么以及需要发生什么。

我仍然认为，人工智能是与世界互动以实现目标。这意味着，我们需要强化学习，但如果你只是与世界互动以实现目标，那么你就必须建立一个世界模型。你必须有一个目标，必须在多个时间尺度上建模世界，必须学习理解世界的正确结构、特征和概念。我没有说我们从哪里开始，但这就是你必须尝试的事情，看看什么有效，而这正是强化学习的起点。

随着时间的推移，我们已经研究出良好的线性映射方法。如果任务是学习一个线性关系，那么现有的方法或技术就能很好地应对。我们可以在线学习，也可以持续学习。

Scott：你能举一个这种线性关系的例子吗？

Rich：所有的算法实际上都是为线性情况定义的。对于非线性情况，你会得到线性与非线性版本的TD Lambda、Q-learning，线性版本学习迅速，并且可以随着世界的变化而适应，但它们无法学习非线性映射，无法学习异或关系，无法学习新特征。1986年，我们发现了反向传播，能够学习非线性映射。

不过，这是一个两难的选择。或者说，当我们想学习非线性情况时，我们不得不放弃快速变化和持续学习的能力。我们不应该这样做，但最初发现的方法无法持续学习。那些方法非常令人兴奋，也很强大，能够学习非线性情况，因此，我们在能学习非线性映射的情况下，放弃持续学习并不是令人失望的一件事。这是一个不错的权衡，但我们坚持得太久了。此外，某种程度上，该领域的关注点发生了变化：专注于能做到事情，而不是关注做不到的事情。

Scott：那是什么原因？

Rich：很简单。我们可以做什么，就专注于什么。因此，所有的深度学习都围绕“我们可以用这个数据集做什么”来展开。我们从中学习，然后将我们的学习系统固定下来，直接应用。GPT根本不学习，但它在构建时高度依赖已有知识。因此，我们在语言方面取得了惊人的成就，但我们不得不放弃一些能够在使用过程中持续学习与适应语言的能力。这是对研究者的考验。

他们是想看到现有方法的局限并努力解决这些问题？还是聚焦于现有技术能够实现的内容并继续发展它们？就像是在路灯下找钥匙的问题，我丢了钥匙会在路灯下找，因为那里能看见，尽管那可能不是钥匙所在的地方。无论如何，我认为做什么事情都没问题，但该领域已经压倒性地朝一个方向发展，如此势不可挡，以至于如果你想说“有些事情我们做不到”，就会受到强烈的劝阻，这是一个重大问题。

在早期，机器学习更加开放。“这个很有趣，咱们试试这个。”然后在某个时候，该领域进入了另一个阶段，除非你做Atari游戏这样复杂的研究，否则就无法发表论文。这种情况正在逐渐缓解，现在，人们对我们做不到的事情更感兴趣，而持续学习的整个概念正是现在更可接受的研究方向。

深度学习做的是瞬态学习

Alona：你如何定义持续学习？

Rich：持续学习不是在特定环境中学习，离开这个环境后就僵化不前。如果我们持续学习，那是正常的，异常的是什么？我尝试称之为瞬态学习（transient learning），所以深度学习做的是瞬态学习，在学习一个特定的阶段后，你再也不会学习，这是异常的。

Alona：情境学习（episodic learning）呢?

Rich：行不通，强化学习对“episode”有非常特定的定义，确实无法避开这个问题。

Scott：这确实让我觉得挺合理的。想想我们是如何学习的：通常，我不会一回家就把所有学过的东西都忘掉，即使得到了新信息，除非那天特别糟糕。为什么从一开始这并不是这种默认模式呢？

Rich：从一开始就是默认模式。只是在最近几十年里，我们进入了一种群体思维，大家都以一种特定的方式思考。

我喜欢从我们想要产出什么来思考：我们是在试图生产一个固定并表现良好的系统吗？我们的最终产品是否能够在遇到新事物时继续学习？每天工作时，你会想，“我真厉害，只需要做同样的事情。”还是会想，“他们给我付钱的原因是因为我能够适应发生的事情，可以灵活应对并学习新事物。”两者都很重要，但对我来说，适应能力似乎总是非常重要。硬智力是遵循特定规则的能力，还是适应任何事情发生的能力？

持续学习的重要性

Scott：在构建能够持续学习系统时，我们面临哪些挑战？

Rich：这个领域已经走上了一条妥协之路。研究者可以做非线性的事情，但只有在放弃持续学习的情况下才能做到。非线性学习在这方面取得了很大的成功，我对此并不嫉妒。我感到不满的是，他们没有为其他方向留出空间。

我是一个成功的学者，年纪大了，可以做我想做的事情，会专注于我认为最重要的事情，即使没有人认为它重要。现在是时候了，其实早就该有人想出如何实现持续的非线性学习。在我看来，根本没有理由认为这两者是相对立的，我在以一种特定的方式来做，专注于在线学习和单一任务。就像世界在不断变化一样，你必须在这样的环境中学习。我只是想填补这个空白，我们应该能够进行非线性学习，同时仍然保持完全的持续性。

Alona：为什么我们做不到呢？

Rich：我们只是还没尝试。我们创建了许多专门的技术，使瞬态学习能够很好地运行。比如重放缓冲区（replay buffers），以及进行归一化和提前停止（early stopping）的方式。我们开发了大量的技术和技巧来使瞬态学习有效。这抑制了神经网络进行持续学习的能力，它不会在ImageNet数据集上表现得很好，因为这是为瞬态学习说设计的。它也不会立即在Atari游戏上表现得很好，因为我们开发了许多定制的方法，使Atari能够在瞬态学习方法下很好地运行。这两种方法不同，问题也不同，持续学习不能简单地介入并在所有为瞬态学习设计的标准问题上表现得更好。

Scott：你的意思是，是时候退一步看看全局，而不是只关注这些眼前的小问题吗？

Rich：完全正确。换个角度看，人们可能并没有意识到这个问题的重要性。这意味着一旦解决，结果可能会更为显著。如果你有能力承受后果，持有与众不同的观点并没有什么坏处。就像我说的，我很幸运，能够按自己的意愿工作。

老实说，我曾以为其他人会解决这个问题。当我在做博士项目的时候，我的同学分别负责非线性部分，而我专注于强化学习的具体内容。我们本可以将这些工作结合起来，取得很好的成果。然而，40年过去了，我感到失望，那些人仍未解决这个问题。相反，非线性研究转向了离线瞬态学习。他们没有提供可以用来学习的策略、价值函数、世界模型以及世界转移模型的方法。他们也没有弄明白表示学习是什么。他们没有去思考，“我们应该找出适合世界的正确表示方式，那些能够很好地泛化并能快速学习的表示方式”。现在，这确实是强化学习以及整个AI领域进步的瓶颈。除了线性方法，我们缺乏能够持续学习的方法，也没有好的表示方法。

我们应该戒掉傲慢，这会妨碍我们看清真相，当然，我说这些话时，某种程度上也带着傲慢。我给这些人40年的时间来解决这个问题，虽然他们做了一些努力，但现在看来，我必须自己去做。这样说确实有些傲慢，仿佛我认为自己能在短时间内搞定这一切。实际上，我确实思考这个问题已经很久了，但我真的希望不需要我来做，这实在令人遗憾。

Alona：但他们确实做了一些基础工作，他们的努力并非完全无用，这对你是有帮助的。

Rich：我觉得你可能是宽容地看待这个问题，但我认为这并不是基础工作，实际上是偏离了解决方案。这让找到正确的方法变得更加困难，因为他们并没有意识到“这是我们需要解决的问题”。他们认为，“我们已经完成了关于学习表示的反向传播论文，这就是解决学习表示问题的方法。”

Alona：表示方法不应该在许多情况下都具有通用性和实用性吗？无论你需要做什么，都可以在它之上学习一个线性映射。

Rich：我同意这个观点。他们认为，反向传播可以学习到好的表示，我并不这么认为。或者，他们认为这让人们更难意识到“这是一个未解决的问题，我要去研究它”。他们会说，“反向传播已经解决了。如果你想研究这个，最好是在反向传播的基础上进行，并证明你比它更好。”

反向传播实际上只是梯度下降，而梯度下降没有任何机制来驱动学习系统找到那些能很好泛化的特征。它只是找到能够很好解决当前问题的特征。

Alona：所以这不是反向传播的问题，而是反向传播所解决的目标，即损失函数的问题。

Rich：梯度下降确实存在问题，梯度下降的目标只是目标本身，这就是目标的问题。

Scott：听起来，很多工作实际上并不是在说服人们，我们没有找到正确的解决方案。

Rich：可以这么做，但这实际上是一种失败的方法。你可能会说，“没人关注这个问题。我得先说服大家这是正确的做法，然后再进行研究。”但事实并非如此。你会把所有时间都花在说服别人上，而从未真正投入到研究中，这样你就永远无法取得成功。其他人会说，“他提出这个问题，但没有任何进展。”所以，这样做是一种很容易失败的方式，就是花时间试图说服别人去做你认为重要的事。

Alona：有什么替代方案呢？你要去做重要的事情而忽略其他的。

Rich：是的，你必须成为一个逆向思维者并且切实去做。你可以花些时间去说服，如果希望成果得以发表，就必须尝试去说服他人。

Alona：我的意思是，在某些方面，我们那些从事非线性研究的朋友们就是这么做的。他们大约有十年的时间都不理会其他人。尽管别人说他们所做的事情没什么原则性，但每个人都热衷于主要的统计机器学习时，他们却一直在坚持。

Rich：是的，但他们总是做出了好的成果，取得了一些进展。

Alona：我记得，在我研究生生涯的早期阶段，深度学习肯定存在着诸多争议。而且，确实也有人仍然觉得深度学习很愚蠢。不过，无论如何，也许我们应该为他们的坚持给予一定的赞扬。

Rich：这就像一个“荒野”故事。神经网络曾在不被看好的“荒野”中发展了十年，那时没人觉得它好。所以我想说，持续学习也如同在“荒野”中走过十年，而现在它开始被人们所接受了，这很不错，并且一切都会回归正轨。在科学中，所有这些问题都是能够自我纠正的。

Alona：它们真的能够自我纠正吗？这需要有人来做出决定吗？毕竟科学本身就是由从事科学的人所构成的，所以只有当有人做出决定时，它才可能是自我纠正，而且这可能需要很长的时间。我觉得，我们应该朝着2030年的目标努力。我们知道自己可能不会成功，但无论如何都必须去尝试。

单一目标就是获得奖励

Scott：当我们说到成功时，指的是什么呢？

Rich：我们要去理解大脑是如何运作的。要明白一个系统是怎样通过尝试各种不同的事情，以试错的方式进行学习，进而构建起一个关于世界的转换模型，只有这样我们才能够真正理解这个世界。它能够为我们找到决策的关键支撑点。比如，我到底应该去听这个讲座还是那个讲座？我是不是应该去洗手间？我要不要喝一口茶？所有这些情况，我们必须做出选择。虽然低层次的选择是存在的，但是我们必须在自己的生活当中找到那些有意义的选择，而所有这些都与一个模型紧密相关。因此，这要求我们通过试错来进行学习，并且建立起世界模型，同时还能够运用这个模型来进行规划，这并非过分的要求。这些就是构成思维的一系列重要因素。

Alona：我觉得人类独有的一个特性在于能够同时拥有多个目标。我手头有很多事情在进行着，我正在做的这些事情多到厌烦，我们每个人都有自己正在做的各种事情。我们有家庭，有事业，有朋友，还有爱好。所有这些方面相互叠加。每天我们都会决定自己的目标是什么，决定今天要去做什么事情。有时候这会引领我们朝着一个更大的目标迈进，而有时候，比如在周日，就无所谓了。我想到了动物，动物的目标是什么呢？也许动物的目标没那么复杂。它们也很少是为了某种内在的奖励。

Rich：我并不反对你的看法。确实既存在只有一个目标的情况，也存在有很多目标的情况，所以我确实认同奖励假设，也就是说，所有的目标追求都可以很好地理解为对一个单一的外部接收标量信号进行最大化。这是实现目标的一部分。我们会给自己设定很多子问题，比如，一个子问题是如何成功地拿起我的茶并送到嘴边而不洒出来等等。所有这些事情都是对我们非常有用的子问题，是实现总体目标的一部分。

因此，我觉得子任务和子问题是解决单一总体问题的一种方法。这样一来，我就可以两者兼顾了。我有一个目标，但同时，在智能体的脑海中会充满各种疑问，比如“这个能让我做到那个吗？”我必须学习所有这些不同的事情，并学会解决每一个问题的方法。然后，我的生活会充满这样的想法：“哦，我决定选择在那个目标上努力一段时间，这会让我最终到达某个地方，然后我可以再去努力实现另一个目标。”所以，从子问题的层面来考虑目标以及所有这些不同的目标。

Scott：在这种情况下，这些都是子目标，那总体的单一目标会是什么呢？

Rich：单一的目标就是获得奖励。我们并不真正清楚人们的奖励具体是什么，但它就像快乐与痛苦，又或许是他人对自己的态度、他人给予的尊重。所以，奖励假设的惊人主张是，存在一个极其微小的标量值，而你在努力使其最大化。从这个低层次的角度来看，它确实是个低层次的事物。它是在每个时刻进入你脑海中的一个数字，并且是在脑下垂体中进行计算的。然后，由此产生出诸如“我想组建一个家庭，我渴望成为一名成功的研究科学家”之类的想法。所以，从一个非抽象的事物中能够产生出非常抽象的目标和非常抽象的概念。

曾经有一段时间，这种说法令人难以想象，说出来都会让人觉得尴尬，但现在，这应该很明了。就像我们已经多次看到这种情况发生，比如AlphaGo学会下围棋、国际象棋并拥有棋局中所需的所有抽象概念。

Alona：或者就像语言模型。它们从这个简单得多的小问题中学到的东西让我惊叹。

Rich：从微小的事物中可以产生非常抽象的东西。

关于智能的预测

Rich：在未来的几十年里，我们将不断探索与理解思维的奥秘。虽然这一过程可能会带来不适，但正是这种不适感让我感到我们在取得进展，逐步加深对事物的理解。我们并非只是在追寻自认为正确的真相，而在寻找真正的真相。试想一下，要使一个人产生成为研究科学家之类的渴望，这几乎是不可能的——进化怎么可能赋予你这样的目标？这在本质上难以想象，也行不通的。相反，进化会给你一个更实际的目标，而这条路往往充斥着心理上的不安。在未来，我们可能会接触到其他智慧生命，深入理解它们的运作方式。它们的存在，也许只是为了提升某个指标，但这一切都充满了趣味。

我预测到2030年，我们有25%的概率能够理解智能。尽管这个预测比较模糊，并不代表我们能完全理解人类思维，这仍需更长的时间，但基本意味着我们会对智能有一定的了解。我们将学会如何通过不断的试错来实现目标，让我们能够在多个抽象层次上进行规划，而不会出现重大的认知缺口。它必须学会构建良好的表示形式，能够精准地进行概括。这将是一个类似神经网络的系统，结合多种算法，并且带有奖励机制。

Scott：如果你的预测属实，将如何改变现状？

Rich：我们将逐步理解思维的运作方式，这会帮助我们更深入地认识自己的思维。人工智能研究人员将在细节层面理解它，并且它将逐渐渗透到社会以及全球意识中。最初我们可能会感到不适，但会慢慢适应。这将引发技术变革，甚至改变经济，我不确定社会变革和技术变革哪个更重要。即使我们无法完全理解思维，也会有许多技术变革。我认为，这将促使我们深刻地改变自身，它能让我们更好地认识自己，也许，这才是真正的意义所在。

Alona：你觉得如果我们对它有更深入的理解，这会改变我们教授知识和育人的方式吗？

Rich：完全会改变。一个重大变化就是人类能力的增强。如果我们能够理解思维的运作原理，那么我们就应该能改善记忆力。我想要得到能力增强去更好地思考。无论是数字基质（substrate）还是生物基质，各自都有许多优势。因此，我们确实可以做得更好。许多事情之所以受限，是因为我们尚未完全理解自身的运作机制。不过正如我所说，理解“思维”与理解“人类思维”是不同的，而这也不同于理解人类大脑的运作。要完全掌握这些可能需要更长的时间。

你作为心理学家，身处神经科学的前沿。你怎么看待Neuralink这样的脑机接口技术？

Alona：我确实看到这项技术可以在许多领域发挥作用，但我们还远未达到大多数人真正渴望这种增强的时间阶段。我不觉得这会是2040年的事情。你怎么看？

Rich：从某种意义上讲，它只是一个接口而已。

Alona：除了打开我的头骨，还有其他方法可以实现这种接口吗？

Rich：确实存在其他方法。可以实现高带宽的接口进入大脑，但是要实现高带宽的接口输出是很困难的。

Alona：不过，这也许跟信息压缩有关。我经常在想，如果ChatGPT能把你想传达的内容快速总结成一封长篇邮件，而接收方再用ChatGPT将其转化为简短摘要，那我们为什么不直接互相发送摘要呢？也许我们能够找到一种比语言更高效的沟通方式。

Rich：是的，我们确实能做到这一点。语言从本质上就是把你完整的想法压缩成一串线性的词语，肯定会有更好的沟通方式。

对研究者的建议

Alona：你对学生或其他研究人员在选择研究内容和取得良好进展方面有什么建议吗？

Rich：准备一个笔记本，每天写下你的想法，并努力让它们更加完善。试着去挑战你的想法，让它们不断进步。如果你希望别人对你的想法感兴趣，那么首先你自己要在意它。至少得花点心思，愿意花时间把它写下来、思考、挑战，并不断发展这是最重要的。

我用了这种方法，大概用了25本实体笔记本进行记录，现在我只在MacBook上写了，有时确实会回头看看，这改变了我的整个轨迹。不过，这真的很难，因为面对空白的纸张，你可能不知道从何说起，也许对自己的想法还很困惑，但我认为能够帮助克服这种困惑的方法是，意识到写下模糊和混乱的想法通常会带来价值。它们的价值往往和记录它们的难度成正比。如果你觉得“我甚至不知道从哪儿开始，这些想法太乱了，无法写下来”，那正是它们变得有价值的时刻。当你真的将这些想法写下来时，就迈出了重要的一步。

Scott：这是不是意味着你有一个真正想要实现的想法？这会是信号吗？

Rich：不是这样，那样反倒会有点可怕。只是让你面对那张纸，试着向自己说明你究竟在想什么。如果真的不知道写什么，就写下“我觉得我脑海里有哪六个有趣的想法”。然后逐一写下来，标出一到六。然后问自己，“这真的是全部吗？是否还有第七个？”或者想想，这六个中是否有两个其实是相似的。再花一段时间去解释每个想法，向自己解释你真正的思路是什么。

在这个过程中，你可能会发现：“哦，这个想法在我试图解释它的时候好像就消失了。”也许它并不是什么特别的想法，或者在你写的过程中它逐渐成长并发生了变化。这些都是可能发生的事。所以，保持写作的习惯很重要。尽量每天写一页，不必太有压力，但要保持定期写作的节奏。

第二个建议是，尽量对流行趋势保持中立，选择一个对你来说既重要又可能有成果的问题。无论某个方向是热门还是冷门，都不应影响你。因为如果它很流行，那么确实会更容易研究，因为人们理解它，但它的价值可能较低，因为许多人都在做这个领域的研究。

Alona：你有什么建议，能帮助我明确下一步该做什么吗？

Rich：我会先写下六件我认为有趣的事儿，并逐一解释它们。然后回过头来看，思考一下现在可以具体研究哪一个。这并不是说找到一件事后就立刻去做，研究的本质就是需要尝试各种事情，大多数事情可能都不会成功，或者不会立刻见效。

阅读最新前沿科技研究报告，欢迎访问欧米伽研究所的“未来知识库”