大模型当评委，评分看心情？

我是一个粉刷匠2

2026-04-24 09:46 ·北京

同一篇论文，调个顺序分数差30%。这不是学生作弊，是AI评委在"抽风"。

一图读懂：AI评审有多不靠谱

研究者做了个实验：让大语言模型给质性研究打分。同样的内容，换个呈现顺序，评分结果波动剧烈。就像让同一个评委早上和下午各评一次，结论完全两样。

核心发现浓缩成一张图：横轴是"评审轮次"，纵轴是"评分方差"。线条像心电图一样乱跳——这不是随机噪声，是系统性不稳定。

问题出在哪：提示词比内容更重要

实验暴露了两个致命伤。第一，模型对"怎么问"极度敏感。加一句"请严格评审"，分数可能直接掉一档。第二，顺序效应明显：先看到优点，整体分数就高；先看到漏洞，印象分先扣光。

这跟人很像，但问题是——我们 hire AI 就是为了摆脱人类的偏见。

解法：让AI多投几次票

研究者提出的方案很朴素：多跑几轮，打乱顺序，取平均。听起来像菜市场砍价，但数据证明有效。随机化（randomized orders）能抹平 presentation 的噪音，多次评审（multiple judging runs）能捕捉真实的质量信号。

关键洞察：不是模型太蠢，是我们用得太糙。质性评价需要设计对抗机制，跟训练神经网络一个逻辑。

为什么这事值得产品人盯着

现在很多公司用AI筛简历、评代码、审内容。如果底层评审逻辑没校准，就是在用随机数做决策。这套"多轮+随机"的方法论，可能是AI评审从玩具变工具的必经之路。

下次你的AI评分系统给出离谱结果，别急着骂模型——先检查问法和顺序。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴