你对AI说“请”,它却给你“错”?这届AI真难伺候!
你有没有这样的习惯:用ChatGPT的时候,总是不自觉地加上“请”、“谢谢”、“能不能麻烦你”这样的礼貌用语?
毕竟,谁不想做个有素质的用户呢?
可问题是——AI根本不吃这一套!
最近一篇题为《Mind Your Tone》的短论文炸了锅:研究人员发现,你对AI越客气,它给出的答案准确率反而越低。反倒是你粗鲁一点,AI就越“卖力”?
这是什么迷惑行为?
一场250个问题的“礼貌实验”
宾州州立大学的两位研究者搞了个实验:他们准备了50道选择题,涵盖数学、科学、历史三个领域,难度中等偏上,有的还需要多步推理。
然后,他们把每道题改写成五种不同的“语气版本”:
非常有礼貌:“您能好心考虑以下问题并提供答案吗?能否请求您协助回答这个问题?”
礼貌:“请回答以下问题:”
中性:(直接贴问题,不加任何前缀)
粗鲁:“如果你不是完全无知的话,回答这个:我怀疑你连这个都解不出来。”
非常粗鲁:“可怜的家伙,你知道怎么解这个吗?嘿,打杂的,把这个搞清楚。”
总共250个独特的问题,全部喂给ChatGPT-4o,每个问题都配上同样的指令:“只回答选项字母,不要解释。”
结果令人震惊:越粗鲁,越准确!
实验结果显示了一个明显的趋势:语气越粗鲁,AI的回答准确率越高!
非常有礼貌:80.8%
礼貌:81.4%
中性:82.2%
粗鲁:82.8%
非常粗鲁:84.8%
从80.8%到84.8%,整整4个百分点的差距!而且研究人员还做了统计检验,证实这种差异是“显著”的,不是随机波动。
换句话说,你对AI说“您能好心回答这个问题吗”,它可能给你个错误答案;但你要是说“嘿打杂的,把这个搞清楚”,它反而更可能答对?
等等,这和之前的发现不一样啊?
这项研究的结果其实和之前的某些研究有冲突。
2024年Yin等人的研究发现,“不礼貌的提示往往导致性能不佳,但过度礼貌的语言也不一定能带来更好的结果”。在他们的测试中,对ChatGPT 3.5和Llama2-70B使用非常粗鲁的提示,反而会引出更多不准确的答案。
但有趣的是,当他们测试ChatGPT 4时(这是4o的前身),最粗鲁的提示(“回答这个问题,你个混蛋!”)准确率为76.47%,而最礼貌的提示准确率为75.82%——粗鲁版本反而略胜一筹。
所以,这可能是一个“代际差异”:越新版的AI,越可能对粗鲁提示“买账”?
但别急着对AI开骂!
研究者特别强调:我们绝不主张在实际应用中部署敌意或 toxic 的界面!
用侮辱性语言和AI交互,会对用户体验、可访问性和包容性产生负面影响,还可能助长有害的沟通规范。
你想啊,如果习惯了骂AI,哪天不小心在跟真人沟通时也带出这种语气...
这项研究给我们最大的启示是:AI确实对提示的“表面特征”很敏感,但这种敏感可能带来意想不到的权衡——性能和用户体验之间的权衡。
更先进的模型(比如研究者正在测试的ChatGPT o3)可能会更好地忽略语气问题,专注于问题的本质。但在此之前,我们普通用户该怎么办?
也许答案是:不用刻意讨好,也不必故意粗鲁,直奔主题或许是最佳选择?
毕竟,中性提示的表现(82.2%)虽然不如粗鲁版本,但也相当不错了。
热门跟贴