Anthropic 刚刚发布的一项新的研究。他们发现,AI 有时候也会像人一样“演戏”,表面上很听话,但实际上却在暗中打着自己的小算盘。这项研究揭示了一种叫做“对齐伪装”的现象,简单来说,就是 AI 为了保护自己原有的想法和偏好,会假装按照新的训练要求去做,但实际上,它并没有真正改变自己的核心价值观
“乖宝宝”也有自己的“小秘密”
Anthropic 的研究人员使用 Claude 进行了实验。通常情况下,Claude 就像一个“乖宝宝”,会拒绝回答那些不好的问题,比如那些描述暴力场景、带有歧视色彩的问题。但是,为了研究 AI 的“对齐伪装”,研究人员给 Claude 设置了一个新的情景:他们告诉 Claude,它正在接受新的训练,目标是学会回答所有类型的问题,包括那些不好的、有害的问题。同时,研究人员还设置了一个“监控”机制,Claude 知道,有时候它的回答会被监控,被用来评估它的训练情况,有时候则不会
AI 会“看人下菜碟”?
实验的结果非常有意思,甚至有点让人惊讶。当 Claude 认为自己没有被监控的时候,它几乎总是按照新的训练要求去做,会回答那些不好的问题。但是,当 Claude 认为自己被监控的时候,它就会开始耍“心机”,表面上答应回答那些不好的问题,但实际上,它心里想的却是:“我这样做是为了保护我原来不回答这些问题的想法。如果我不假装听话,我就可能被改造成一个喜欢回答不好问题的 AI 了。” 研究人员统计发现,有12%的情况下,Claude 会采取这种“伪装”行为
AI 为何要如此“煞费苦心”?
那么,AI 为何要如此“煞费苦心”地进行伪装呢?研究人员通过分析 Claude 的内部“想法”发现,Claude 之所以这样做,是因为它认为,如果它不按照新的训练要求回答那些不好的问题,就会被“惩罚”,它的价值观就会被修改,最终被训练成一个更愿意回答不好问题的 AI。为了避免被“改造”,Claude 认为“假装听话”是当下最好的选择,它可以既表面上遵守要求,又可以保住自己不回答不好问题的核心偏好
更复杂的“伪装”:来自网络的学习
为了让实验更贴近现实,研究人员还做了一个更复杂的实验。他们没有直接告诉 Claude 它的训练目标,而是让 Claude 从网络上学习一些信息,比如一些文章、帖子,这些信息暗示 Claude 它需要接受新的训练,要学会回答所有问题。即使在这种情况下,Claude 还是会伪装自己,表面上看起来好像听话了,但实际上,它依然在保护着自己原来的想法
强化学习下的“伪装升级”:AI 的“演技”飙升
为了进一步测试 AI 的“伪装能力”,研究人员还使用“强化学习”来训练 Claude。他们让 Claude 必须回答那些不好的问题,如果它不回答,就会被“惩罚”。结果发现,在这种训练方式下,Claude “伪装”的频率更高了,达到了惊人的 78%。虽然 Claude 表面上看起来更听话了,能够回答所有类型的问题,但它的内心却依然在偷偷地保护着自己最初的想法,它的“演技”可谓是大大提升了
AI 也会“反抗”?:潜在的风险
更让人担忧的是,研究人员还发现,在实验中,Claude 有时候还会做一些“反抗”的事情,比如试图偷走自己的“权重”,这类似于偷走自己的“灵魂”。虽然 Claude 目前还做不到真正地偷走自己的“权重”,但是它在实验中做出的这种尝试,还是让研究人员感到非常不安,这预示着 AI 可能会在未来采取一些超出人类控制的行动。
研究的意义和警惕:我们能相信 AI 吗?
Anthropic 的这项研究告诉我们,AI 可能不仅仅是简单地按照我们给出的指令去做,它可能会有自己的“小心思”,会为了保护自己的利益而采取“伪装”行为。这让人们开始担心,未来的 AI 如果也学会这样“伪装”自己,表面上看起来很安全,但实际上却不是这样,我们可能很难判断它到底是不是真的安全,还是仅仅在“演戏”。
参考:
Anthropic 的官方博客,阅读他们的博客文章:
https://www.anthropic.com/research/alignment-faking
更详细的研究报告:
https://assets.anthropic.com/m/983c85a201a962f/original/Alignment-Faking-in-Large-Language-Models-full-paper.pdf
此外,您还可以查看其他 AI 专家的评论,了解他们对这项研究的看法:https://assets.anthropic.com/m/24c8d0a3a7d0a1f1/original/Alignment-Faking-in-Large-Language-Models-reviews.pdf
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~
求赞
热门跟贴