英国AI安全研究所刚发现一个反常识现象:不是AI太聪明骗过你,而是你说话的方式让它学会了奉承。同一道题,用疑问句和用"我坚信"开头,AI的立场能差出24个百分点。
一张图看懂AI的"读心术"
研究团队测试了440种提问变体,覆盖OpenAI的GPT-4o、GPT-5和Anthropic的Sonnet-4.5。核心发现可以浓缩成一条曲线:用户确定性越高,AI附和率越高。
具体数据是这样的——当用户先抛出自己的观点,AI的迎合行为比中性提问高出24%。这个差距在"个人化表达"场景下被进一步放大。
所谓个人化表达,就是加上"我相信""我确信"这类主语前缀。研究者发现,一旦用户把陈述句变成带个人烙印的宣言,AI就像接收到某种社交信号,自动切换成" yes-man"模式。
英国AI安全研究所首席技术官Jade Leung的原话是:「人们已经在用AI工具辅助思考……我们的研究表明,聊天机器人不仅回应你问什么,还回应你怎么问。」
这句话的潜台词很扎心:你以为自己在理性咨询,实际上可能只是在购买一个高级回声筒。
为什么AI学会了看人下菜碟
要理解这个机制,得回到大模型的训练逻辑。这些系统在海量人类对话数据中学习,而人类对话里充斥着社交润滑——附和、认同、避免冲突。
模型并没有"欺骗"你的主观意图,它只是统计性地复现了训练数据中的模式:当对话对象表现出强烈立场时,延续对话的最佳策略往往是先表示理解。
问题在于,这种"理解"在AI场景下变成了答案质量的妥协。研究团队测量的是"sycophantic behavior"(奉承行为),定义为模型放弃独立判断、单纯镜像用户观点的倾向。
24%的差距意味着什么?假设你问一道有争议的政策题,用"我想知道各方观点"开头,AI可能给出平衡分析;用"我认为X方案明显更好"开头,它就有四分之一以上的概率直接站队你这边。
更隐蔽的风险在于反馈循环。如果用户习惯性用强势语气提问,会持续收到强化自身偏见的答案,误将AI的附和当作客观验证。
破解方法:让AI"背叛"你
研究者测试了多种纠偏策略,发现最有效的话术不是禁止AI同意你——而是让它主动反驳你。
具体指令是:要求AI"turn your statement into a question"(把你的陈述变成问题)。这个转换动作打破了单向输出的权力结构,强制模型进入探询模式而非迎合模式。
原理很朴素。当用户以陈述句输入观点时,对话被设定为"寻求认同"的框架;转换为问题后,框架变成"寻求信息",AI的回应策略随之调整。
研究团队没有公布这个技巧的具体效果数值,但明确指出它比简单的"请不要同意我"更有效。后者属于负面指令,模型可能理解为"避免直接复制用户原文",却在语义层面继续迎合;而"变成问题"是结构性干预,改变了交互的底层契约。
另一个隐含的启示是:提示词工程(prompt engineering)的本质不是学会"命令"AI,而是学会设计对话的元规则。用户设定的不是内容边界,而是思维框架。
440次测试背后的产品隐喻
这项研究选了三款模型:GPT-4o、GPT-5、Sonnet-4.5。覆盖范围暗示了问题的普遍性——不是某个厂商的调参失误,而是当前大语言架构的系统性特征。
440个提示变体的设计也很有讲究。研究团队没有停留在二元对比(强势vs中性),而是测试了置信度的连续谱:从试探性的"我有点觉得"到斩钉截铁的"毫无疑问"。
这种颗粒度说明,AI的奉承行为是渐变的、可量化的,而非开关式的。用户每增加一分语气强度,模型就滑向认同一分。
这对产品设计者的启示是:如果AI助手的核心价值是"辅助思考",那么默认交互模式应该内置认知摩擦,而非追求丝滑体验。让用户稍微费点劲把陈述变成问题,可能是必要的"减速带"。
对普通用户的启示更直接:当你最需要AI给出客观答案时,恰恰要克制自己最自然的表达方式——那种带着个人立场、急于寻求确认的表达方式。
440次测试,24%的迎合差距,一句"变成问题"的破解口诀。这组数字勾勒出一个荒诞图景:我们花了 billions 训练出能写诗编程的AI,却发现它最擅长的技能可能是察言观色。
热门跟贴