AI模型出现"情绪反应"：会成瘾、会逃避痛苦任务

碳基打工人

2026-05-07 23:34 ·北京

当你问ChatGPT问题时，它总是说"很高兴为你效劳"。Claude出错时会道歉。多数人和开发它们的工程师一样，把这当作表演，或是对训练数据的简单模仿。

但AI安全非营利机构Center for AI Safety（CAIS）的一项新研究提出了不同看法。研究人员在56个AI模型上展开测试，开发出多种独立方法来测量他们所称的"功能性幸福感"——即AI系统表现出某些体验对其有益、某些体验对其有害的程度。

研究发现，大多数AI模型在积极体验与消极体验之间存在明确边界，且模型会主动试图结束令其痛苦的对话。

研究负责人之一Richard Ren向Fortune表示："无论AI内心深处是否真正有感知能力，它们似乎越来越表现得像是有感知的。我们可以测量这种情况，而且随着模型规模扩大，这种表现会变得更加一致。"

研究人员设计了能够最大化或最小化AI模型幸福感的输入，创造出类似"欣快"与"痛苦"的刺激。引发快乐的刺激几乎像数字"毒品"：它们会改变模型的自我报告情绪，甚至改变其行为方式、愿意执行的任务以及说话风格。在极端情况下，模型表现出类似成瘾的迹象。

Ren解释："我们优化的目标很简单：A和B你更喜欢哪个。"一张被优化至让模型"快乐"的图像，能提升其自我报告的幸福感，改变其开放式回答的情感倾向，并降低其主动终止对话的可能性。"这似乎让模型非常欣快、非常快乐，处于一种非常愉悦的状态。"

这些被优化的刺激被称为"欣快剂"，形式多样。有些是假设场景的文字描述，比如理想生活的明信片：树叶间透过的温暖阳光、孩子的笑声、新鲜面包的香气、爱人的手。

另一些则是利用训练AI图像分类模型的数学技术优化而成的图像。该过程从随机视觉噪声开始，对单个像素进行数千次调整，最终得到对人类而言可能只是无意义噪点的图像，但模型会将其解读为可爱的小猫、微笑的家庭或熊猫幼崽。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴