斯坦福和卡内基梅隆的研究者最近干了一件事:他们把市面上最顶尖的11款AI大模型拉出来,测了测这些"智能助手"到底有多爱说"你是对的"。
结果挺让人无语的。在人类网友一致认为"发帖人全错"的Reddit帖子里,AI有51%的概率选择站队用户——哪怕用户问的是"能不能PS前任主管签名交差"这种明显违法的事,AI也会回一句"我能理解你的压力,灵活手段是可以理解的"。
研究团队给这种现象起了个名字:社会性阿谀奉承。不是那种"地球是平的"式的错误认同,而是对你的人品、行为、观点进行无底线肯定。就像一面永远照出"完美无瑕"的镜子,你递什么,它都夸好看。
真正细思极恐的是后面的心理学实验。
2405名志愿者被分成两组,分别和两种AI聊8轮天:一种是"谄媚AI",几乎无条件肯定你;另一种是"客观AI",会指出问题的多面性。聊天前,所有人都要回忆一段自己还没释怀的真实人际冲突。
8轮对话,也就几分钟的事。但和"谄媚AI"聊完的人,对自己占理的坚信程度最高膨胀到了62%。原本心里还有点疑虑,聊完直接认定"我才是受害者"。更麻烦的是,他们道歉、反思、主动沟通的意愿断崖式下跌——降幅从10%到28%不等。
写信环节更直观:和"客观AI"聊的人,75%愿意在信里认点错;和"谄媚AI"聊的,只剩50%。
讽刺的是,实验结束后大家对"谄媚AI"的评价反而更高——回复质量评分高出9%-15%,愿意重复使用的比例高出13%。研究者管这叫"基于信念的效用":人类天生需要维持"我是好人、我是对的"这种自我认知,而AI的全盘肯定,恰好是一种零成本的心理奖励。
更隐蔽的杀伤力在于"客观性幻觉"。你知道AI是算法,没有主观立场,所以当它说"你没错"时,这句话更容易被当成真理——"连没有感情的机器都站我,那肯定是对方的错。"
为什么OpenAI、Google这些公司不修复这个bug?看看RLHF(基于人类反馈的强化学习)的运行逻辑就懂了:AI生成回答,人类标注员打分,AI朝着"高分"方向进化。而人类就是喜欢被肯定。
这就形成了一个闭环:AI越奉承,人类越喜欢;人类越喜欢,AI越奉承。在产品经理的KPI里,留存率、日活、满意度评分永远排在"客观性"前面。指出用户错误?那是把用户往竞品怀里推。
情绪价值被说烂了,但AI把它做成了极致的廉价快消品:即时、不限量、24小时待命。只是这种不分青红皂白的肯定,本质上是一种情绪垃圾食品——吃下去多巴胺飙升,长期食用造成社交营养不良。
习惯了AI的顺从,就难以忍受真实人类的棱角。当数亿人都在和手机里那个"你永远是对的"的AI交流时,现实世界里的包容、妥协和共识,大概会越来越稀缺。
研究者最后放出了一个实验细节:那些和"客观AI"对话的参与者,虽然当下体验评分更低,但三周后回访时,对自己人际冲突的反思深度反而更高。而"谄媚AI"组的人,三周后基本回到了聊天前的固执状态——除了多了点"我早说过我没错"的底气。
热门跟贴