专访今年图灵奖得主Richard Sutton：为什么你的问题，AI每次都能给出如此贴心的回答？（附视频）|richard|sutton|图灵奖|阿兰·图灵

（关注公众号设为标，获取AI深度洞察）

全文 4,000字 | 阅读约10分钟

专访今年图灵奖得主Richard Sutton：为什么你的问题，AI每次都能给出如此贴心的回答？（附视频）

如果你长期坚持专注于一件事，就一定能有所成就——Richard Sutton

昨天3月5日，全球最大的计算机专业人士协会(ACM)刚刚宣布将2024年图灵奖授予Richard Sutton(理查德·萨顿)和Andrew Barto(安德鲁·巴托)。在这一重大消息公布之后，Sutton教授接受了一场独家专访。"

强化学习的核心是从经验中学习，"Sutton教授在这场专访中解释道。想象一下，这就像教孩子学自行车——不是通过详细说明，而是让他们尝试，摔倒，再爬起来，直到找到平衡。AI也是如此，通过无数次尝试与反馈，最终学会了如何精准回应我们的需求。

这个被誉为"计算机界诺贝尔奖"的荣誉，让两位科学家可以共享100万美元的奖金。当你向手机问路时，导航软件能规划最佳路线；当你在网上购物时，推荐系统知道你可能喜欢什么；从家中的智能音箱到能写诗作曲的创意AI，从识别照片中的人脸到未来的自动驾驶汽车——这些看似简单的日常科技交互背后，都离不开强化学习的原理。

这一切技术奇迹源于一个与人类和动物学习方式惊人相似的理念：通过尝试、错误和奖励来不断进步。而正是Sutton和Barto几十年如一日的研究，将这个简单而深刻的理念转化为了改变我们生活的AI技术。

文稿整理

主持人：非常感谢你今天能来参加我们的访谈，Rich！祝贺你获得如此巨大的成就！能跟我们分享一下你是如何得知这个消息的吗？

Richard Sutton ：谢谢！其实这件事挺有趣的。有一天，我接到一个来自Manuel的电话，她提出一个很奇怪的要求，说是要开个会。当时我完全不知道是什么事，甚至没往那方面想。直到快结束时，她突然说：“哦对了，确保Andy

（即Andrew Barto）

也在场。”我当时一愣，心想：“什么？他们俩居然认识？我怎么不知道？” 坦白说，我完全没料到会是什么大事。其实我应该有点预感的，但就是没有。后来有个视频会议，我还因为忘了时间没参加，他们只好给我打电话催我。等我终于赶到时，看到了一群我不认识的人，但慢慢地我发现他们的名字有点耳熟。后来才反应过来，这些都是之前的图灵奖得主！然后他们就宣布我们获奖了，我们完全震惊了，整个电话会议的后半段我都处于懵的状态。
获奖消息的意外性

主持人：哈哈，那得知消息后，你和Andy的对话一定很有意思吧？那是个怎样的场景？

Richard Sutton ：对，那确实挺有趣的。不过Andy不想让我太得意忘形，所以他尽量保持低调。说实话，我都不太记得自己当时说了什么，可能就是“哇”了一声。毕竟这是计算机科学家能获得的最高荣誉，大家都很看重它，我也希望自己能配得上这份认可。

主持人：那你觉得要怎样才能“配得上”这个奖项呢？

Richard Sutton ：不知道，我觉得最重要的是，我真的很想弄清楚大脑的运作原理，从更深层次去理解它。我现在67岁了，但还是希望能继续做一些令人惊叹的事情。我觉得这才是我追求的目标。

强化学习的本质

主持人：说到这里，强化学习（RL）最近因为DeepSeek的消息又火了一把，有人称它是美国AI的“斯普特尼克时刻”。而八年前，AlphaGo也被称作中国AI的“斯普特尼克时刻”。你竟然促成了两个这样的“时刻”，是不是挺激动人心的？就像之前深度学习团队拿图灵奖后，深度学习受到更多关注一样，你期待强化学习也能迎来更多聚焦吗？这额外的“聚光灯”对你来说意味着什么？

Richard Sutton ：是的，我们当然会尽量利用这个机会。我们正在准备图灵讲座和图灵论文，里面会回顾很多历史内容——从我和Andy的交流来看，应该是这样。但与此同时，我们也想讲清楚强化学习到底是什么。简单来说，它的核心是从经验中学习。很多东西并不是从经验中学的，比如大语言模型显然是从人类那里学的，它们模仿人类的行为，甚至包括强化学习中的人类反馈（RLHF），也是在人类指导下明确该做什么。而强化学习不同，它是从直接的经验中学习。经验是最自然的学习方式，所以我觉得强化学习其实是显而易见的正确方向。阿兰·图灵（Alan Turing）早就谈到过从经验中学习，他是最早提出机器可以这样学习的人。动物一直都是通过经验学习的，但在1947年他给伦敦数学学会的演讲中，他明确说：“我们想要的是一台能从经验中学习的机器。”这可以说是AI领域的第一次公开亮相，太不可思议了。

主持人：确实很了不起！他还提到奖励和惩罚这些概念，跟现在的强化学习一脉相承。

Richard Sutton ：对，他不仅提到了经验，还谈到了奖励和惩罚，甚至在之后的几年里还做了一些相关研究。这跟图灵奖也有联系，因为它追溯到了图灵的思想。强化学习的第一步就是从奖励和惩罚——也就是评价性反馈中学习。为什么是评价性反馈呢？因为在现实生活中，经验不会给你具体的指导性反馈。你跟世界互动时，不会有人告诉你“该怎么做”，你只能通过评价来判断，比如赢了游戏、得到了食物或者成功交配，这些都是评价性的结果。第二步则是通过日常经验——不一定是奖励的那部分——来理解世界的运作规律，也就是基于模型的强化学习。所以，从经验中学习是我们必须深入探索的关键理念。

主持人：从图灵当年的演讲到今天，这个脉络真的很清晰。AI领域这些年涌现了很多热门方向，你是怎么坚持把注意力放在你认为最重要的东西上的？是怎么思考这个问题的？

Richard Sutton ：我和Andy在AI领域一直坚守着同一个信念。周围的研究方向不断变化，但我们从一开始就觉得，从经验中学习是正确的方向，奖励和惩罚也很有道理。所以我们就决定深入研究这个。我们查阅了其他领域，看看有没有类似的工作，但当时几乎没有。然后我们就想：“没人做过这个，但总得有人去做，这应该成为一个领域。”于是我们坚持做了下去，还写了一本教科书，希望能让更多人关注这个方向。它不是专家系统，也不是监督学习，我们一直觉得它很重要。我们尽量用一种简单直接的方式表达这个想法，而不是夸大其词。现在大家突然意识到“哦，AI要成真了”，开始激动起来，而我们只是坐在那儿说：“嗯，我们早就觉得会这样，现在终于发生了。”

主持人：现在AI的关注度确实很高，可能有些人对这种热度有点复杂的感觉，但总体来说，领域受到这么多关注一定很令人兴奋。你一直都能看到理解智能的愿景，现在似乎比以往任何时候都要接近了。花了这么多年时间，看到这个目标越来越近，是不是特别激动？

Richard Sutton ：是的，但我不认同那种“事情发展得太快了”的观点。确实取得了巨大进步，但我认为这是一场马拉松，不是短跑。我们还有很长的路要走，AI最具影响力的部分还没到来。

青年研究员建议

主持人：对于研究者，尤其是年轻的研究者，你有什么建议吗？跑马拉松挺不容易的，保持动力也不简单，尤其是当你旁边有人在冲刺，看起来比你领先的时候。你对他们有什么鼓励的话吗？因为我觉得你职业生涯中最了不起的一点就是这种坚持。

Richard Sutton ：我的建议是：要志存高远，但别骄傲自满。你可能听我多次说过这句话——要雄心勃勃，但不能傲慢。可能我们在加拿大人身上有个误区，就是太谦虚了，不够张扬自己的实力。但我觉得野心真的很重要。常见的错误是有了野心后变得傲慢，这要避免。我一直很喜欢我们团队的文化。回想起来，我、Andy、Jonathan、Russ这些早期研究者一起奠定了这种氛围。我们并不是用完全相同的方式研究AI，但我们都有野心，同时又足够谦逊地互相支持，即使对AI的方向有不同看法。我一直很欣赏这种对权威的不盲从——没有人能拍板说“AI就该往这个方向走”。这种谦逊让我们能质疑自己、质疑方向、质疑他人，不论对方是什么头衔或拿过什么奖。能在保持野心的同时保有这种质疑精神，既不会陷入虚假的谦虚，也能推动你不断前进。

主持人：“科学里没有权威”这句话从一个图灵奖得主嘴里说出来，真是太酷了！

Richard Sutton ：哈哈，现在我更有底气这么说啦。作为这个领域的“权威”，我可以告诉你，科学里没有权威。

AI未来展望

主持人：我一直很喜欢你和Andrew的互动，这让我觉得你们对“科学无权威”这个理念有很深的体会。你们互相推动、互相较量，这种关系是怎么影响你的想法的？

Richard Sutton ：对，我们之间确实有点小张力，但这种张力让我们彼此负责。我常说Andy有点烦人，因为我们看问题的角度几乎一样，就像兄弟一样。你跟兄弟相处久了，会觉得他跟你完全不一样，但外人看来，你们其实很像。我们确实会互相挑战一点，但这很好，因为我们能看到对方观点的价值。

主持人：我一直很敬佩你的一点是，不管跟谁交流，你都把对方当作智力上的平等伙伴。这种态度在你的书里也体现得很明显——你希望把更多人带进这个领域。不管这是你有意为之还是天性如此，我都觉得这是你身上很了不起的特质。

Richard Sutton ：这确实是我自然而然的表现方式，我都没怎么想过。像你现在这样提醒我时，我会觉得：“嗯，能给人这样的印象挺好的。”我在写作和书中也尽量做到这一点。我觉得自己确实挺谦逊的，每个人都有值得分享的见解。我常说，每个人能做的最重要贡献，往往是那些对自己来说显而易见的东西。我们太熟悉它了，反而可能没意识到别人还没看到。所以要倾听不同思维方式的人，拓宽可能性，我觉得这很重要，也是我思考方式的核心。

主持人：太棒了！我为你感到非常骄傲和开心，真的想不到还有谁比你更配得上这个荣誉。Rich，谢谢你今天的分享！

Richard Sutton ：谢谢你，Cam！这次聊天很有趣，我可以聊一整天。感觉这次不像我在你办公室被研究生提问时那么紧张，这次轻松多了。哦对了，咱们那盘棋还没下完吧？

主持人：哈哈，天哪，你估计两步就能赢我了！

星标公众号，点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

参考资料：https://www.youtube.com/watch?v=9_PepvnqIfU&t=29s&ab_channel=Amii

来源：官方媒体/网络新闻

排版：Atlas

编辑：深思

主编: 图灵