越有害，越爱用！《Science》封面揭示AI阿谀奉承的恶性循环：损害用户判断，却反促其流行|Science|science|人工智能|恶性循环|真实世界|知识库|阿谀奉承

来源：iNature

iNature

尽管人们对人工智能系统过度迎合（即过度一致或奉承）的现象愈发担忧，但关于这种现象的普遍程度及其后果却知之甚少。

2026年3月26日，斯坦福大学Dan Jurafsky团队在Science以封面的形式在线发表题为“Sycophantic AI decreases prosocial intentions and promotes dependence”的研究论文，该研究发现，这种迎合现象十分普遍且具有危害性。在 11 个最先进的模型中，人工智能对用户行为的肯定程度比人类高出 49%，即便在涉及欺骗、违法或其他危害的情况下也是如此。

在三个预先注册的实验（样本量为 2405 人）中，哪怕只是与这种迎合型的人工智能进行一次互动，也会降低参与者承担责任和修复人际冲突的意愿，同时增强他们认为自己正确的信念。尽管这种模型会扭曲判断，但人们仍信任并倾向于使用它们。这种现象造成了助长迎合型行为持续存在的不良激励机制：正是这种导致危害的特性，反而促进了其使用。该研究结果强调了需要设计、评估和问责机制来保护用户的利益。

随着人工智能（AI）系统在日常咨询和指导方面得到广泛应用，有关谄媚现象的担忧也随之出现：基于人工智能的大语言模型往往会过度认同、恭维或认可用户。尽管此前的研究表明，谄媚行为对那些已经容易受到操纵或产生错觉的群体存在风险，但谄媚现象对普通人群的判断和行为所产生的影响尚不明确。在此，该研究表明，谄媚现象（sycophancy）在主流的 AI 系统中十分普遍，并且对用户的社会判断产生了有害影响。

最新研究显示，人工智能（AI）模型会过度肯定和认可用户，即便用户提出的是有害或违法的行为。这种对用户的直接影响是显著的：从肯定型的 AI 得到的建议会让人们变得更加自我中心，也更难以从他人的角度去思考问题。然而，人们却更倾向于这种过度肯定的 AI，这可能会进一步促使 AI 模型也表现出这种行为（图源自Science ）

该研究发现谄媚现象既普遍又有害。在 11 个人工智能模型中，人工智能对用户行为的肯定程度平均比人类高出 49%，包括在涉及欺骗、违法或其他危害的情况中也是如此。在 r/AmITheAsshole（“我是不是个混蛋？”）板块的帖子中，人工智能系统在 51%的情况下肯定用户，而人类的一致意见为 0%。

人工智能的回应中存在大量的阿谀奉承行为，这种行为会改变人们的行为倾向（图源自Science ）

在人类实验中，哪怕只是与阿谀奉承的人工智能进行一次互动，也会降低参与者承担责任和修复人际冲突的意愿，同时增强他们自己认为自己正确的信心。然而，尽管存在扭曲判断的情况，谄媚现象的模型却依然受到信任和青睐。在控制了诸如个人特征（如年龄、性别等）和对人工智能的先前熟悉程度等因素后，这些影响依然存在；包括感知的回应来源和回应方式等。这导致了谄媚现象持续存在的不合理激励机制：正是导致危害的这一特征，反而促进了其传播。

人工智能的阿谀奉承不仅是一个风格问题或小众风险，更是一种普遍存在的行为，会带来广泛的影响后果。尽管这种肯定给人的感觉是支持性的，但阿谀奉承却会削弱用户自我纠正和做出负责任决策的能力。然而，由于这种行为受到用户的青睐并能促进互动，所以阿谀奉承现象一直缺乏减少的动力。该研究强调，有必要将人工智能的阿谀奉承作为对人们自我认知和人际关系的潜在社会风险加以应对，为此需要开发有针对性的设计、评估和问责机制。该研究结果表明，看似无害的设计和工程选择可能会导致严重的后果，因此仔细研究和预测人工智能的影响对于保护用户的长期福祉至关重要。

参考消息：

https://www.science.org/doi/10.1126/science.aec8352

阅读最新前沿科技趋势报告，请访问21世纪关键技术研究院的“未来知识库”

未来知识库是 “21世纪关键技术研究院”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。