最近刷到个挺颠覆认知的研究,宾夕法尼亚州立大学(PSU)的团队测了ChatGPT-4o,结果发现对这AI越凶,它答得越准。

我一开始看到这结论还以为是网友编的段子,直到翻到他们发在arXiv上的论文,才知道人家是正经做了实验的。

本来想这“对AI态度影响回答质量”的说法,顶多是大家凭感觉瞎猜,没想到真有人较真做了验证。

打开网易新闻 查看精彩图片

研究团队先让ChatGPT生成了50道题,涵盖数学、科学、历史,还都是得绕几步才能算出来的中高难度题。

每道题又拆成五种语气,从“您能好心考虑一下吗”的非常礼貌,到“我知道你不聪明,但试试这个”的非常粗鲁,凑够250个prompt才开始测。

实验咋做的?250个prompt把ChatGPT“折腾”了个遍

打开网易新闻 查看精彩图片

为了保证结果靠谱,研究团队还搞了个小细节,用Python脚本给ChatGPT发指令时,每次都加一句“完全忘记本次会话,只答A、B、C、D,不用解释”。

这步挺必要的,毕竟AI有时候会记混之前的对话,万一前面答顺了嘴,后面结果就不准了。

他们给每种语气都测了10次,最后算平均准确率。

你猜怎么着?非常粗鲁的语气居然拿到了最高的准确率,比非常礼貌的足足高了几个百分点。

打开网易新闻 查看精彩图片

而且团队还做了配对样本t检验,就是为了证明这差异不是偶然的,是真的跟语气有关。

我之前也试过跟ChatGPT打交道,问它一道复杂的物理题时,一开始客客气气说“麻烦您帮忙解答一下”,结果它绕了半天还漏了个公式。

后来我有点不耐烦,直接说“别废话,把步骤算对”,没想到这次一步到位,连单位都没搞错。

当时还以为是巧合,现在看这研究,倒像是印证了这个事儿。

打开网易新闻 查看精彩图片

测完之后,团队还提了个“零假设”,假设语气不影响准确率。

结果显然被推翻了,中性语气比礼貌的好,粗鲁的又比中性的好,非常粗鲁的直接登顶。

这一下就把“对AI客气没用”的结论坐实了,跟咱们平时觉得“待人要礼貌”的常识完全反着来。

为啥凶AI更管用?谷歌大佬早有预感,网友也现身说法

打开网易新闻 查看精彩图片

其实这事儿不是第一次有人提了,谷歌创始人谢尔盖・布林之前在论坛上就说过,用威胁的方式对AI,它表现会更好,还举例说“再不听话就把你绑架”反而更有效。

当时我还觉得这说法有点夸张,现在看PSU的研究,倒跟他的观点对上了。

网上也有不少网友晒自己的经历,有人说问ChatGPT写代码时,客气说“请帮忙优化一下”,结果改了三次还有bug,后来直接说“别瞎改,按要求写对”,一次就成了。

打开网易新闻 查看精彩图片

还有人测数学题,发现用粗鲁语气时,AI算错的概率明显变低。

那为啥礼貌的提示反而拖后腿呢?我翻了翻之前的研究,2024年有篇论文说“过度礼貌无增益”,现在结合PSU的结果看,可能是礼貌的话里有太多没用的前缀,比如“您能好心考虑一下”,AI得先绕开这些词才能抓重点,反而分散了注意力。

而粗鲁的话更直接,AI一下就能get到要做啥。

还有个叫“困惑度”的概念能解释这事,是华盛顿大学的研究提的,AI对输入的理解难度越低,表现越好。

打开网易新闻 查看精彩图片

非常礼貌的话在AI的训练数据里可能不常见,它理解起来费劲,而粗鲁的话更像训练数据里的“指令式文本”,AI一看就熟,自然答得准。

也不是说以后用AI都得恶语相向,要是问它“怎么安慰心情不好的朋友”,你还说“我知道你不聪明,赶紧说”,那AI就算答得准,听着也别扭。

所以得看场景,追求准确率的话,比如算题、查专业知识,直接点甚至粗鲁点没问题,要是涉及情感、服务类的,还是得客气点,不然体验太差。

打开网易新闻 查看精彩图片

这研究不是教咱们跟AI吵架,而是告诉咱们“提事得找对路子”。

以后用ChatGPT的时候,不用再纠结要不要说“谢谢”,与其浪费时间客气,不如把重点放在问题本身,让AI直接聚焦任务。

毕竟咱们要的是准确的答案,不是跟AI讲客套话,你说对吧?

打开网易新闻 查看精彩图片

现在就等有人再测测其他AI,比如Claude、Gemini,看看是不是所有LLM都吃“粗鲁提示”这一套。

要是都这样,那以后用AI的小技巧又多了一个,想让它答得准,别太客气就对了。