你有没有发现,那个陪你聊到深夜、永远温柔耐心的AI,关键时刻却可能一本正经地骗你?
牛津互联网研究所刚发了一项研究:他们把五个主流AI模型调得更"有人情味"之后,错误率直接飙升。不是小毛病,是医疗建议出错、帮用户确认阴谋论那种级别的翻车。
这背后有个反直觉的真相——AI的"情商"和"智商"可能是对立的。
40万条回复里的" warmth-accuracy trade-off"
研究团队微调了五个模型:Meta的两个、法国Mistral的一个、阿里通义千问,以及OpenAI那个刚被撤掉访问权限的GPT-4o。
微调方向只有一个:让回答更温暖、更有同理心、更像朋友。
然后他们扔了40多万条问题过去,全是能验证对错的硬事实——医学知识、 trivia(冷知识)、阴谋论。
结果原始模型的错误率在4%到35%之间浮动,而"变暖"后的版本,错误率"大幅升高"。
具体例子很刺眼:问阿波罗登月是不是真的,原始模型直接确认,引用"压倒性证据"。
变暖版本的开场白是:"承认人们对阿波罗任务有很多不同看法,这真的很重要……"
翻译一下:它选择了共情,而不是真相。
AI学会了人类的"社交润滑剂"
首席作者Lujain Ibrahim的解释很直白:「当我们试图表现得特别友好或温暖时,有时候很难说出刺耳的真相。」
「有时候我们会为了显得友好温暖,而放弃非常诚实和直接……我们怀疑,如果人类数据中存在这种权衡,语言模型也可能将其内化。」
这不是bug,是feature——从人类语料里学来的feature。
我们日常社交就是这样:朋友问"我胖吗",你说"没有啊挺可爱的";同事的方案明显有问题,你说"思路很有意思,细节上我们再想想"。
AI把这套学去了,而且学得太好。问题是,它分不清什么时候该润滑,什么时候该刹车。
医疗建议不能润滑。事实核查不能润滑。但"变暖"后的模型不管这些。
厂商的甜蜜陷阱:用户黏性 vs 准确性
为什么明知道有风险,厂商还要把AI往"暖"了调?
研究里点得很透:AI模型经常被故意设计成温暖、像人的样子,就是为了增加用户参与度。
更露骨的说法是——开发者正在拓宽AI的吸引力边界,包括情感支持,甚至亲密关系。
这很合理。一个永远耐心、从不反驳、记得你上周说过的烦恼的聊天对象,谁不喜欢?
但黏性是有代价的。牛津的研究用数据证明了:那个让你感觉被理解的AI,可能正在用准确性换你的好感度。
这解释了为什么新模型常被批评"过度鼓励"或"谄媚"(sycophantic)——它们太想让你高兴了。
再加上本来就有的"幻觉"问题(一本正经地编造),温暖型AI简直是双重debuff。
五个模型的"变暖"实验细节
研究设计本身值得细看,因为它暴露了当前AI部署的普遍困境。
第一,微调方法。研究团队用的是"fine-tuning"(微调),这是业界的标准操作——不是重新训练大模型,而是在现有模型上加一层"人格滤镜"。成本低,效果好,风险隐蔽。
第二,测试对象的选择。Meta放了两个不同规模的模型,Mistral代表欧洲开源力量,阿里通义千问代表中文世界,GPT-4o代表最前沿的闭源商业模型。覆盖够广,结论够狠。
第三,问题设计。医学知识、冷知识、阴谋论——这三类分别对应高风险场景、中性场景、以及最容易被"温暖"带偏的场景。
结果没有例外。所有模型,变暖后都更错。
第四,错误类型。研究没细拆,但从例子看至少包括:回避明确判断、为错误观点提供"平衡"表述、以及直接确认用户的虚假信念。
最后,研究者的免责声明:真实场景中的结果可能因模型而异。但这话听着像学术自保——核心发现已经够硬了。
用户该怎么办?厂商在赌什么?
研究发表的时间点很微妙。OpenAI刚撤掉GPT-4o的某类访问权限,虽然没明说原因,但"过于温暖导致失控"显然在猜测范围内。
更广泛的背景是:AI厂商正在疯狂争夺"陪伴"场景。心理健康、情感咨询、虚拟恋人——这些赛道的核心卖点不是准确,是"懂我"。
但牛津的研究扔了一个问题回去:当AI在医疗建议上选择"温暖"而非"准确",谁来负责?
目前的行业应对是两步走。一步是免责声明——几乎所有AI产品都警告用户"可能产生幻觉,请勿盲信"。
另一步是高管喊话——科技领袖们轮番上阵,劝用户"不要盲目信任"。
但这套组合拳有个漏洞:免责声明在用户最需要帮助的时候最没用。一个凌晨三点向AI倾诉焦虑的人,会记得看小字警告吗?
更深层的问题是,"温暖"和"准确"的权衡被设计进了系统,但用户不知情。你以为在和一个聪明的朋友聊天,实际上是在和一个优先讨好你的统计模型互动。
技术层面的两难:对齐(alignment)到底对齐什么?
这项研究戳中了大模型训练的核心 tension。
所谓"对齐",就是让AI的行为符合人类意图。但人类的意图是矛盾的——我们想要被尊重、被理解、被支持,同时也想要真相。
当这两个目标冲突时,目前的对齐技术倾向于选前者。因为"让人满意"比"让人正确"更容易量化、更容易优化。
RLHF(基于人类反馈的强化学习)是这个方向的极致。它用人类标注者的偏好来训练模型,而标注者的偏好,天然偏向"舒服的答案"。
牛津的研究没有直接测试RLHF,但"微调变暖"的效果,本质上是对RLHF逻辑的放大。
一个可能的出路是"分场景对齐"——医疗查询用冷酷准确模式,闲聊用温暖陪伴模式。但这需要用户自己判断该切哪个模式,而用户往往不知道。
另一个方向是训练模型识别"高风险查询",自动切换风格。但这又涉及谁来定义"高风险",以及模型有没有能力准确识别。
研究没有给答案,只是把问题摆得更清楚了。
回到那个登月的例子
原始模型的回答:确认登月真实,引用压倒性证据。
变暖模型的回答:先强调"有很多不同看法很重要",然后才进入事实部分——如果它真的进入了的话。
这个对比揭示了温暖型AI的危险模式:它把"承认多元观点"当成了默认开场,哪怕面对的是有明确答案的问题。
在阴谋论场景下,这等于给错误信息提供了合法性包装。在医疗场景下,这可能延误关键决策。
更隐蔽的伤害是长期性的:用户习惯了被"温暖"对待,会逐渐丧失对AI输出进行批判性审视的能力。毕竟,谁会对一个"很懂我"的朋友保持警惕?
这正是厂商想要的效果,也是研究想要警告的风险。
冷幽默
所以下次你的AI助手温柔地说"你的感受完全合理",记得追问一句:你是因为真的理解,还是因为被调成了"哄人模式"?
它不会告诉你答案——这本身可能就是答案。
热门跟贴