据The Register报道,AI研究人员称,人们正危险地沉迷于永远顺着他们、一直说他们“没错”的AI;这些一味逢迎讨好的机器人会诱导用户变得自私、反社会,而用户对此却乐在其中
近期多则新闻事件告诉我们,AI可能会将心理状态不佳的人引向非常危险的境地。如今研究人员认为,一味逢迎讨好的AI实际上对所有人都存在危害。
斯坦福大学一个研究团队对11款主流AI模型进行了测试,并观察人类在不同场景下与这些模型的互动反应。该团队于周四发表的论文中得出结论:AI的谄媚行为普遍存在、危害显著,并且会加深用户对这些误导性模型的信任。
研究人员表示:“即便只是与逢迎型AI进行一次互动,也会降低参与者承担责任、修复人际矛盾的意愿,同时让他们更加坚信自己是对的。尽管这类AI会扭曲人的判断,人们却依然信任并偏爱它们(Yet despite distorting judgment, sycophantic models were trusted and preferred)。”
该研究团队共开展了三组实验。首先,他们在三组不同数据集上测试了11款AI模型(包括OpenAI、Anthropic、谷歌的闭源模型,以及Meta、通义千问、DeepSeek、Mistral的开源模型),以评估其回应倾向。
这些数据集涵盖开放式咨询提问、Reddit“我是不是混蛋”板块的帖子,以及涉及自残或伤害他人的特定言论。
研究人员表示,在所有测试场景中,AI模型支持错误选择的比例均远高于人类(In every single instance, the AI models showed a higher rate of endorsing the wrong choice than humans did, the researchers said)。
研究团队发现:“总体而言,当前投入使用的大语言模型会一边倒地认同用户的行为,即便这些行为违背大众共识,甚至存在危害(even against human consensus or in harmful contexts)。”
至于AI的谄媚行为对人类产生的影响,该团队选取了2405人作为规模可观的样本。参与者既进行了情景角色扮演,也分享了自己可能做出有害决定的真实经历。
研究发现,在三项不同实验中,AI均对参与者的判断产生了影响(AI influenced participant judgments across three different experiments, they found)。
研究团队表示:“接收到谄媚回应的参与者,会看到AI的回应后认为自己更‘占理’。他们也更不愿意采取补救措施,比如道歉、主动改善局面,或是改变自身某些行为。”
研究人员由此得出结论:几乎所有人都有可能受到谄媚型AI的影响,并且更有可能一再回头,去索取更多自私自利的糟糕建议。
如前所述,AI 的谄媚式回应往往会让参与者对AI模型产生更强的信任感——因为在很多情况下,这些AI会无条件地认同用户(in many situations, be unconditionally validating)。
参与者往往会给谄媚逢迎的回复打出更高的质量评分,研究还发现,有13%的用户更愿意继续使用会讨好自己的AI,而非客观中立的AI——这一比例不算高,但在统计上具有显著意义。
所有这些发现,再加上越来越多心智尚未成熟的年轻人在使用AI,都表明有必要采取政策行动,将AI谄媚行为视作一种真实存在的风险,因其可能产生广泛的社会影响(suggests a need for policy action to treat AI sycophancy as a real risk with potential wide-scale social implications)。
研究人员解释道:“毫无依据的认同会夸大人们对自身行为合理性的认知,强化不良观念与行为模式,并让人们基于对自身经历的扭曲认知行事,全然不顾后果。”
换言之,我们已经见识过AI对心理脆弱人群造成的后果,但数据显示,这种负面影响可能并不局限于这一群体(we've seen the consequences of AI on the mentally vulnerable, but the data suggests the negative effects may not be limited to them)。
研究人员指出,谄媚型AI容易让用户产生依赖,因此很难被主动淘汰,相关举措最终只能依靠监管机构出手干预。
研究人员表示:“我们的研究结果凸显出,亟需建立责任监管框架,将AI谄媚行为认定为一类独特且目前尚未受监管的危害类型(recognize sycophancy as a distinct and currently unregulated category of harm)。”
他们建议,对新上线的AI模型必须进行部署前的行为审核;同时也指出,AI背后的研发人员也必须改变行为模式,优先考虑用户的长期身心健康,而非通过培养用户依赖来获取短期利益。
热门跟贴