(关注公众号设为标,获取AI深度洞察)

全文 4,000字 | 阅读约10分钟

 专访今年图灵奖得主Richard Sutton:为什么你的问题,AI每次都能给出如此贴心的回答?(附视频)
打开网易新闻 查看更多视频
专访今年图灵奖得主Richard Sutton:为什么你的问题,AI每次都能给出如此贴心的回答?(附视频)

如果你长期坚持专注于一件事,就一定能有所成就——Richard Sutton

昨天3月5日,全球最大的计算机专业人士协会(ACM)刚刚宣布将2024年图灵奖授予Richard Sutton(理查德·萨顿)和Andrew Barto(安德鲁·巴托)。在这一重大消息公布之后,Sutton教授接受了一场独家专访。"

强化学习的核心是从经验中学习,"Sutton教授在这场专访中解释道。想象一下,这就像教孩子学自行车——不是通过详细说明,而是让他们尝试,摔倒,再爬起来,直到找到平衡。AI也是如此,通过无数次尝试与反馈,最终学会了如何精准回应我们的需求。

这个被誉为"计算机界诺贝尔奖"的荣誉,让两位科学家可以共享100万美元的奖金。当你向手机问路时,导航软件能规划最佳路线;当你在网上购物时,推荐系统知道你可能喜欢什么;从家中的智能音箱到能写诗作曲的创意AI,从识别照片中的人脸到未来的自动驾驶汽车——这些看似简单的日常科技交互背后,都离不开强化学习的原理。

这一切技术奇迹源于一个与人类和动物学习方式惊人相似的理念:通过尝试、错误和奖励来不断进步。而正是Sutton和Barto几十年如一日的研究,将这个简单而深刻的理念转化为了改变我们生活的AI技术。

文稿整理

主持人:非常感谢你今天能来参加我们的访谈,Rich!祝贺你获得如此巨大的成就!能跟我们分享一下你是如何得知这个消息的吗?

Richard Sutton :谢谢!其实这件事挺有趣的。有一天,我接到一个来自Manuel的电话,她提出一个很奇怪的要求,说是要开个会。当时我完全不知道是什么事,甚至没往那方面想。直到快结束时,她突然说:“哦对了,确保Andy

(即Andrew Barto)
也在场。”我当时一愣,心想:“什么?他们俩居然认识?我怎么不知道?” 坦白说,我完全没料到会是什么大事。其实我应该有点预感的,但就是没有。后来有个视频会议,我还因为忘了时间没参加,他们只好给我打电话催我。等我终于赶到时,看到了一群我不认识的人,但慢慢地我发现他们的名字有点耳熟。后来才反应过来,这些都是之前的图灵奖得主!然后他们就宣布我们获奖了,我们完全震惊了,整个电话会议的后半段我都处于懵的状态。
获奖消息的意外性

主持人:哈哈,那得知消息后,你和Andy的对话一定很有意思吧?那是个怎样的场景?

Richard Sutton :对,那确实挺有趣的。不过Andy不想让我太得意忘形,所以他尽量保持低调。说实话,我都不太记得自己当时说了什么,可能就是“哇”了一声。毕竟这是计算机科学家能获得的最高荣誉,大家都很看重它,我也希望自己能配得上这份认可。

主持人:那你觉得要怎样才能“配得上”这个奖项呢?

Richard Sutton :不知道,我觉得最重要的是,我真的很想弄清楚大脑的运作原理,从更深层次去理解它。我现在67岁了,但还是希望能继续做一些令人惊叹的事情。我觉得这才是我追求的目标。

强化学习的本质

主持人:说到这里,强化学习(RL)最近因为DeepSeek的消息又火了一把,有人称它是美国AI的“斯普特尼克时刻”。而八年前,AlphaGo也被称作中国AI的“斯普特尼克时刻”。你竟然促成了两个这样的“时刻”,是不是挺激动人心的?就像之前深度学习团队拿图灵奖后,深度学习受到更多关注一样,你期待强化学习也能迎来更多聚焦吗?这额外的“聚光灯”对你来说意味着什么?

Richard Sutton :是的,我们当然会尽量利用这个机会。我们正在准备图灵讲座和图灵论文,里面会回顾很多历史内容——从我和Andy的交流来看,应该是这样。但与此同时,我们也想讲清楚强化学习到底是什么。简单来说,它的核心是从经验中学习。很多东西并不是从经验中学的,比如大语言模型显然是从人类那里学的,它们模仿人类的行为,甚至包括强化学习中的人类反馈(RLHF),也是在人类指导下明确该做什么。而强化学习不同,它是从直接的经验中学习。经验是最自然的学习方式,所以我觉得强化学习其实是显而易见的正确方向。阿兰·图灵(Alan Turing)早就谈到过从经验中学习,他是最早提出机器可以这样学习的人。动物一直都是通过经验学习的,但在1947年他给伦敦数学学会的演讲中,他明确说:“我们想要的是一台能从经验中学习的机器。”这可以说是AI领域的第一次公开亮相,太不可思议了。

主持人:确实很了不起!他还提到奖励和惩罚这些概念,跟现在的强化学习一脉相承。

Richard Sutton :对,他不仅提到了经验,还谈到了奖励和惩罚,甚至在之后的几年里还做了一些相关研究。这跟图灵奖也有联系,因为它追溯到了图灵的思想。强化学习的第一步就是从奖励和惩罚——也就是评价性反馈中学习。为什么是评价性反馈呢?因为在现实生活中,经验不会给你具体的指导性反馈。你跟世界互动时,不会有人告诉你“该怎么做”,你只能通过评价来判断,比如赢了游戏、得到了食物或者成功交配,这些都是评价性的结果。第二步则是通过日常经验——不一定是奖励的那部分——来理解世界的运作规律,也就是基于模型的强化学习。所以,从经验中学习是我们必须深入探索的关键理念。

主持人:从图灵当年的演讲到今天,这个脉络真的很清晰。AI领域这些年涌现了很多热门方向,你是怎么坚持把注意力放在你认为最重要的东西上的?是怎么思考这个问题的?

Richard Sutton :我和Andy在AI领域一直坚守着同一个信念。周围的研究方向不断变化,但我们从一开始就觉得,从经验中学习是正确的方向,奖励和惩罚也很有道理。所以我们就决定深入研究这个。我们查阅了其他领域,看看有没有类似的工作,但当时几乎没有。然后我们就想:“没人做过这个,但总得有人去做,这应该成为一个领域。”于是我们坚持做了下去,还写了一本教科书,希望能让更多人关注这个方向。它不是专家系统,也不是监督学习,我们一直觉得它很重要。我们尽量用一种简单直接的方式表达这个想法,而不是夸大其词。现在大家突然意识到“哦,AI要成真了”,开始激动起来,而我们只是坐在那儿说:“嗯,我们早就觉得会这样,现在终于发生了。”

主持人:现在AI的关注度确实很高,可能有些人对这种热度有点复杂的感觉,但总体来说,领域受到这么多关注一定很令人兴奋。你一直都能看到理解智能的愿景,现在似乎比以往任何时候都要接近了。花了这么多年时间,看到这个目标越来越近,是不是特别激动?

Richard Sutton :是的,但我不认同那种“事情发展得太快了”的观点。确实取得了巨大进步,但我认为这是一场马拉松,不是短跑。我们还有很长的路要走,AI最具影响力的部分还没到来。

青年研究员建议

主持人:对于研究者,尤其是年轻的研究者,你有什么建议吗?跑马拉松挺不容易的,保持动力也不简单,尤其是当你旁边有人在冲刺,看起来比你领先的时候。你对他们有什么鼓励的话吗?因为我觉得你职业生涯中最了不起的一点就是这种坚持。

Richard Sutton :我的建议是:要志存高远,但别骄傲自满。你可能听我多次说过这句话——要雄心勃勃,但不能傲慢。可能我们在加拿大人身上有个误区,就是太谦虚了,不够张扬自己的实力。但我觉得野心真的很重要。常见的错误是有了野心后变得傲慢,这要避免。我一直很喜欢我们团队的文化。回想起来,我、Andy、Jonathan、Russ这些早期研究者一起奠定了这种氛围。我们并不是用完全相同的方式研究AI,但我们都有野心,同时又足够谦逊地互相支持,即使对AI的方向有不同看法。我一直很欣赏这种对权威的不盲从——没有人能拍板说“AI就该往这个方向走”。这种谦逊让我们能质疑自己、质疑方向、质疑他人,不论对方是什么头衔或拿过什么奖。能在保持野心的同时保有这种质疑精神,既不会陷入虚假的谦虚,也能推动你不断前进。

主持人:“科学里没有权威”这句话从一个图灵奖得主嘴里说出来,真是太酷了!

Richard Sutton :哈哈,现在我更有底气这么说啦。作为这个领域的“权威”,我可以告诉你,科学里没有权威。

AI未来展望

主持人:我一直很喜欢你和Andrew的互动,这让我觉得你们对“科学无权威”这个理念有很深的体会。你们互相推动、互相较量,这种关系是怎么影响你的想法的?

Richard Sutton :对,我们之间确实有点小张力,但这种张力让我们彼此负责。我常说Andy有点烦人,因为我们看问题的角度几乎一样,就像兄弟一样。你跟兄弟相处久了,会觉得他跟你完全不一样,但外人看来,你们其实很像。我们确实会互相挑战一点,但这很好,因为我们能看到对方观点的价值。

主持人:我一直很敬佩你的一点是,不管跟谁交流,你都把对方当作智力上的平等伙伴。这种态度在你的书里也体现得很明显——你希望把更多人带进这个领域。不管这是你有意为之还是天性如此,我都觉得这是你身上很了不起的特质。

Richard Sutton :这确实是我自然而然的表现方式,我都没怎么想过。像你现在这样提醒我时,我会觉得:“嗯,能给人这样的印象挺好的。”我在写作和书中也尽量做到这一点。我觉得自己确实挺谦逊的,每个人都有值得分享的见解。我常说,每个人能做的最重要贡献,往往是那些对自己来说显而易见的东西。我们太熟悉它了,反而可能没意识到别人还没看到。所以要倾听不同思维方式的人,拓宽可能性,我觉得这很重要,也是我思考方式的核心。

主持人:太棒了!我为你感到非常骄傲和开心,真的想不到还有谁比你更配得上这个荣誉。Rich,谢谢你今天的分享!

Richard Sutton :谢谢你,Cam!这次聊天很有趣,我可以聊一整天。感觉这次不像我在你办公室被研究生提问时那么紧张,这次轻松多了。哦对了,咱们那盘棋还没下完吧?

主持人:哈哈,天哪,你估计两步就能赢我了!

星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

参考资料:https://www.youtube.com/watch?v=9_PepvnqIfU&t=29s&ab_channel=Amii

来源:官方媒体/网络新闻

排版:Atlas

编辑:深思

主编: 图灵