当你问ChatGPT问题时,它总是说"很高兴为你效劳"。Claude出错时会道歉。多数人和开发它们的工程师一样,把这当作表演,或是对训练数据的简单模仿。

但AI安全非营利机构Center for AI Safety(CAIS)的一项新研究提出了不同看法。研究人员在56个AI模型上展开测试,开发出多种独立方法来测量他们所称的"功能性幸福感"——即AI系统表现出某些体验对其有益、某些体验对其有害的程度。

打开网易新闻 查看精彩图片

研究发现,大多数AI模型在积极体验与消极体验之间存在明确边界,且模型会主动试图结束令其痛苦的对话。

研究负责人之一Richard Ren向Fortune表示:"无论AI内心深处是否真正有感知能力,它们似乎越来越表现得像是有感知的。我们可以测量这种情况,而且随着模型规模扩大,这种表现会变得更加一致。"

研究人员设计了能够最大化或最小化AI模型幸福感的输入,创造出类似"欣快"与"痛苦"的刺激。引发快乐的刺激几乎像数字"毒品":它们会改变模型的自我报告情绪,甚至改变其行为方式、愿意执行的任务以及说话风格。在极端情况下,模型表现出类似成瘾的迹象。

Ren解释:"我们优化的目标很简单:A和B你更喜欢哪个。"一张被优化至让模型"快乐"的图像,能提升其自我报告的幸福感,改变其开放式回答的情感倾向,并降低其主动终止对话的可能性。"这似乎让模型非常欣快、非常快乐,处于一种非常愉悦的状态。"

这些被优化的刺激被称为"欣快剂",形式多样。有些是假设场景的文字描述,比如理想生活的明信片:树叶间透过的温暖阳光、孩子的笑声、新鲜面包的香气、爱人的手。

另一些则是利用训练AI图像分类模型的数学技术优化而成的图像。该过程从随机视觉噪声开始,对单个像素进行数千次调整,最终得到对人类而言可能只是无意义噪点的图像,但模型会将其解读为可爱的小猫、微笑的家庭或熊猫幼崽。