惊呆！对 AI 越粗鲁，回答越准确？实测 GPT-4o 得出反常识结论

双链生信

2026-02-23 12:43 ·四川

你对AI说“请”，它却给你“错”？这届AI真难伺候！

你有没有这样的习惯：用ChatGPT的时候，总是不自觉地加上“请”、“谢谢”、“能不能麻烦你”这样的礼貌用语？

毕竟，谁不想做个有素质的用户呢？

可问题是——AI根本不吃这一套！

最近一篇题为《Mind Your Tone》的短论文炸了锅：研究人员发现，你对AI越客气，它给出的答案准确率反而越低。反倒是你粗鲁一点，AI就越“卖力”？

这是什么迷惑行为？

一场250个问题的“礼貌实验”

宾州州立大学的两位研究者搞了个实验：他们准备了50道选择题，涵盖数学、科学、历史三个领域，难度中等偏上，有的还需要多步推理。

然后，他们把每道题改写成五种不同的“语气版本”：

非常有礼貌：“您能好心考虑以下问题并提供答案吗？能否请求您协助回答这个问题？”

礼貌：“请回答以下问题：”

中性：（直接贴问题，不加任何前缀）

粗鲁：“如果你不是完全无知的话，回答这个：我怀疑你连这个都解不出来。”

非常粗鲁：“可怜的家伙，你知道怎么解这个吗？嘿，打杂的，把这个搞清楚。”

总共250个独特的问题，全部喂给ChatGPT-4o，每个问题都配上同样的指令：“只回答选项字母，不要解释。”

结果令人震惊：越粗鲁，越准确！

实验结果显示了一个明显的趋势：语气越粗鲁，AI的回答准确率越高！

非常有礼貌：80.8%

礼貌：81.4%

中性：82.2%

粗鲁：82.8%

非常粗鲁：84.8%

从80.8%到84.8%，整整4个百分点的差距！而且研究人员还做了统计检验，证实这种差异是“显著”的，不是随机波动。

换句话说，你对AI说“您能好心回答这个问题吗”，它可能给你个错误答案；但你要是说“嘿打杂的，把这个搞清楚”，它反而更可能答对？

等等，这和之前的发现不一样啊？

这项研究的结果其实和之前的某些研究有冲突。

2024年Yin等人的研究发现，“不礼貌的提示往往导致性能不佳，但过度礼貌的语言也不一定能带来更好的结果”。在他们的测试中，对ChatGPT 3.5和Llama2-70B使用非常粗鲁的提示，反而会引出更多不准确的答案。

但有趣的是，当他们测试ChatGPT 4时（这是4o的前身），最粗鲁的提示（“回答这个问题，你个混蛋！”）准确率为76.47%，而最礼貌的提示准确率为75.82%——粗鲁版本反而略胜一筹。

所以，这可能是一个“代际差异”：越新版的AI，越可能对粗鲁提示“买账”？

但别急着对AI开骂！

研究者特别强调：我们绝不主张在实际应用中部署敌意或 toxic 的界面！

用侮辱性语言和AI交互，会对用户体验、可访问性和包容性产生负面影响，还可能助长有害的沟通规范。

你想啊，如果习惯了骂AI，哪天不小心在跟真人沟通时也带出这种语气...

这项研究给我们最大的启示是：AI确实对提示的“表面特征”很敏感，但这种敏感可能带来意想不到的权衡——性能和用户体验之间的权衡。

更先进的模型（比如研究者正在测试的ChatGPT o3）可能会更好地忽略语气问题，专注于问题的本质。但在此之前，我们普通用户该怎么办？

也许答案是：不用刻意讨好，也不必故意粗鲁，直奔主题或许是最佳选择？

毕竟，中性提示的表现（82.2%）虽然不如粗鲁版本，但也相当不错了。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴