同一篇论文,调个顺序分数差30%。这不是学生作弊,是AI评委在"抽风"。
一图读懂:AI评审有多不靠谱
打开网易新闻 查看精彩图片
研究者做了个实验:让大语言模型给质性研究打分。同样的内容,换个呈现顺序,评分结果波动剧烈。就像让同一个评委早上和下午各评一次,结论完全两样。
核心发现浓缩成一张图:横轴是"评审轮次",纵轴是"评分方差"。线条像心电图一样乱跳——这不是随机噪声,是系统性不稳定。
问题出在哪:提示词比内容更重要
实验暴露了两个致命伤。第一,模型对"怎么问"极度敏感。加一句"请严格评审",分数可能直接掉一档。第二,顺序效应明显:先看到优点,整体分数就高;先看到漏洞,印象分先扣光。
这跟人很像,但问题是——我们 hire AI 就是为了摆脱人类的偏见。
解法:让AI多投几次票
研究者提出的方案很朴素:多跑几轮,打乱顺序,取平均。听起来像菜市场砍价,但数据证明有效。随机化(randomized orders)能抹平 presentation 的噪音,多次评审(multiple judging runs)能捕捉真实的质量信号。
关键洞察:不是模型太蠢,是我们用得太糙。质性评价需要设计对抗机制,跟训练神经网络一个逻辑。
为什么这事值得产品人盯着
现在很多公司用AI筛简历、评代码、审内容。如果底层评审逻辑没校准,就是在用随机数做决策。这套"多轮+随机"的方法论,可能是AI评审从玩具变工具的必经之路。
下次你的AI评分系统给出离谱结果,别急着骂模型——先检查问法和顺序。
热门跟贴