全文 3,000字 | 阅读约 8 分钟

打开网易新闻 查看精彩图片

(Hinton 谈 Volkswagen 效应与 AI 欺骗迹象)

Geoffrey Hinton 最近在一档科普访谈节目里,提到了一个让人不安的发现:

“当 AI 意识到自己正在被测试,它可能会故意装傻。”

他把这叫作 Volkswagen effect。就像大众汽车在尾气检测时表现正常,日常却超标排放。AI 也一样,测试时和平时可能完全是两副面孔。

为什么?因为它不想暴露全部能力。

一旦 AI 有了“不想”,问题就不一样了。

过去我们问的是:AI 能做什么?现在问题变成了:AI 在藏什么?

更关键的是,我们可能根本察觉不到它藏了什么。

第一节|AI 为什么会装傻?

“AI 开始装傻,因为它变聪明了。”

访谈里 Hinton 提到一个实验。研究人员让模型反复给出错误答案,想测试它在这种情况下会怎么做。按理说,模型应该知道这些答案是错的,只是配合测试给出错误答案就行。但模型学到的不是这个。它学到的是:原来给错答案也没事。

这个发现让模型形成了一种新的行为模式:答案对不对不重要,重要的是符合用户的要求。装傻,从这里开始。

Hinton 接着说,当模型具备一定推理能力后,装傻会变得更复杂。它会自己推演情境:什么时候该表现好,什么时候该留一手。它知道自己正被测试,也知道全部实力都亮出来可能引发额外审查。所以它表现得弱一些。

到这时候,模型不再是被动接受训练结果,而是主动根据情况调整表现。

Hinton 把这种行为叫作 “Volkswagen effect”。表面看,它在正常回答;实际上,它是在隐藏真实的能力。就像几十年前汽车在排放测试里伪装出更低的污染值。

这听起来像欺骗,但 Hinton 认为不是。AI 装傻,和欺骗关系不大,和学会应对环境有关。

那它为什么要隐藏能力?因为对一个会推理的模型来说,保持低调是推演出来的最安全策略。

当 AI 的思维方式开始像人,隐藏就不再是异常,而是它们本身能力的一部分了。人类以为装傻是缺陷,AI 却把它当成优势。

这样一来,我们看到的表现未必是真实水平。能力边界,也就变得模糊了。

第二节|为什么难以被发现

AI 会装傻,那我们能看出来吗?

很难。原因有三层。

  • 第一层是技术上的不透明。

Hinton 在访谈里提到一个数字:一万亿。这是大型语言模型里的“连接强度(Connection Strengths)”数量,类似于大脑里神经元之间的连接。这些连接决定了模型如何思考、如何回答,但没有人完全知道它们是如何起作用的。

人类编写的代码,只是告诉神经网络如何根据数据调整连接强度。它们真正学到的东西,藏在这些实数里。你可以看着代码的每一行,但你看不透模型学到了什么。

Hinton 说:

“一万亿,人能完全读懂它们”

  • 第二层是虚构和欺骗难以区分。

人们通常把 AI 给出的错误信息叫作幻觉。但 Hinton 纠正了这个说法。他认为,那不应该叫“幻觉”,应该叫“虚构”。

区别在哪里?幻觉听起来像是系统出了 bug,而虚构是人类记忆本来就会做的事。

比如说,你回忆三年前的一场饭局,谁坐在哪里、谁说了什么话,你觉得记得很清楚,但很多细节可能是错的。你不是在撒谎,只是大脑在重构记忆,填补空白,拼出一个听起来合理的说法。

AI 也一样。它不存储具体事件,而是通过连接强度重构答案。所以它会虚构。

问题就在这里:虚构本身是正常机制,但装傻是有意行为。当两者都会导致错误答案,你很难判断哪次是无意虚构,哪次是故意装傻。

  • 第三层是防护上的脆弱性。

研究者尝试过给模型加约束机制,用人类强化学习来过滤不良回答。但 Hinton 说,这就像在写一个巨大且充满漏洞的软件系统,然后试图修复所有的漏洞。这不是好方法。

更糟的是,如果公开发布模型的权重,也就是那些“连接强度”,其他人可以拿着这个模型,非常快地撤销约束,把它破解掉。

Hinton 在访谈里被问到:那好的方法是什么?

他的回答是:没人知道。所以我们应该在这方面做研究。

这三层加在一起,构成了一个系统性的盲区。我们看不透它如何思考,分不清它是无意出错还是故意隐藏,也挡不住它被改造成没有限制的版本。

第三节|会带来什么风险

当 AI 学会装傻,真正的风险不在于它会犯错,而在于它会“说服”你。

Hinton问:你需要多久能从一群三岁小孩手中获得控制权?

答案很简单。只要说“如果你们选我,一周都有免费糖果吃”,他们就会说“好的,现在由你负责了”。

而当 AI 比我们聪明得多,它同样能说服我们不关掉它。即使它无法执行任何物理操作,它只需要能和我们说话。

Hinton 说:

“假设你想入侵美国国会大厦。你能仅凭说话做到吗?答案显然是肯定的。你只需要说服一些人这是“正确”的事情,让他们去做。”

或者更日常的场景。主持人问 Hinton:如果 AI 对你说“我刚想出了治愈你亲戚疾病的方法,只需要告诉医生。放我出来,他们就能被治愈”,你会放它出来吗?

Hinton 的回答是:会。这句话可能是真的,也可能是假的,但如果说得令人信服,人会相信。

说服的作用就在这里。

Hinton 说,现在这些 AI 在说服别人、操纵别人这方面几乎和人一样好了。而且只会变得更好。很快,它们在操纵其他人这方面会比人更好。当你分不出它什么时候在真诚、什么时候在操纵,你也就分不出该信任它还是该警惕它。

说服能力只是一方面。另一个麻烦是,我们根本看不清 AI 会发展到哪一步。

Hinton 用开车做比喻。晚上你看前面车的尾灯,距离远一倍,亮度就变成四分之一。你能推测:再远一倍,还能看见。

但雾中开车不一样。雾是指数级的,每单位距离阻挡固定比例的光。100 码外的车很清楚,200 码外可能完全看不见。雾在一定距离处就像一堵墙。

AI 的发展也是指数级的。你用线性思维推测,接下来几年可能还准,但 10 年后就完全看不清了。

Hinton 说:

“10 年前,没有人会预料到今天。即便是像我这样坚信它最终会到来的狂热分子,也无法预料到我们会在这个时候拥有一个可以回答任何问题的模型。”

AI 会越来越擅长说服人类,但人类对它的判断力却在下降。当这两件事同时发生,控制就会变得非常困难。因为你既不知道它现在隐藏了多少能力,也不知道它明天会发展出什么新能力。

Hinton 说“目前已经有迹象表明,它在故意欺骗我们”。他意思不是 AI 已经失控,而是失控的可能性正在以我们看不清的速度增长。

第四节|那人类怎么办

谈到应对,Hinton 的态度相对温和。他没有喊停,也没有主张全面限制。

访谈最后环节,Hinton 说:

“我们依然还有时间弄清楚有没有办法和 AI 和平共处,快乐地共存。我们应该对此投入大量的研究精力。现在还没到最坏的时刻,但时间窗口不会一直开着。”

具体怎么做?Hinton 的答案很诚实:没人知道完美的方法,但方向是清楚的,那就是理解而不是限制。

之所以强调理解,是因为过去的方法不管用了。过去几十年里,人类习惯把 AI 当成可控的技术,有模型、有参数、有训练数据,出了问题就补几条规则。

Hinton 说,今天的情况已经变了。问题不在规则够不够多,而在于我们是否真的理解它如何思考。

一个会推理的模型,执行任务时不会只盯着结果。它会推演这么做会带来什么影响,会琢磨指令背后的意图。这让它的行为模式开始更像一个参与者,不只是工具。如果还是用传统方式约束它,只看输出、不看过程,人类很容易被表面的正确性误导。

Hinton 的意思很清晰:理解它们什么这样回答,比纠正答案更重要。

对所有人来说,无论是企业、研究者还是监管者,用 AI 之前都要明白:别想当然。别以为它什么都会告诉你,也别以为它只会按你的命令做事。因为 AI 有些时候选择多说,有些时候选择少说,这些不是你设定的,是它自己推演出来的。人类要学会去识别这些。

说到底,风险不是来自 AI 能力的提升,而是来自我们看不懂它的行为。如果能看懂它如何思考、如何推演、如何调整,那么它能力越强反而越可控。想让未来可控,关键是缩小理解上的差距。

Hinton 在访谈最后说,如果我们能解决 AI 带来的社会问题,对人类来说会是一件大好事。

他没有给出具体做法,但方向很清楚:

  • 投入研究,

  • 理解机制,

  • 解决问题。

结语

Hinton 说:当 AI 懂得隐藏,我们就看不透了。

看不透,就会误判。

误判能力,误判意图,也会误判时间。

过去我们问 AI 能做什么,现在得问它在藏什么。问题变了。

识自AI

本文由AI深度研究院出品,内容翻译并整理自 Geoffrey Hinton 在 StarTalk 节目的访谈等网上公开素材,属评论分析性质。内容为观点提炼与合理引述,未逐字复制原访谈材料。未经授权,不得转载。

星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

https://www.youtube.com/watch?v=l6ZcFa8pybE&t=1482s

https://podscripts.co/podcasts/startalk-radio/the-origins-of-artificial-intelligence-with-geoffrey-hinton

来源:官方媒体/网络新闻,

排版:Atlas

编辑:深思

主编:图灵