来源:市场资讯
(来源:PaperWeekly)
不用补实验,只需 0.25 美元洗一遍 LaTeX,AI 审稿分数就可能原地抬升。
不用改实验,也不用补数据。只需花 0.25 美元,把论文的 LaTeX 源码丢给大模型“洗”上一遍,重新编译成 PDF 后提交给 AI 审稿人,分数就能原地起飞。
斯坦福大学等研究团队在一项刚被 ICML 2026 录用的研究中指出,这种靠洗稿刷分的系统级漏洞已经真实发生。
研究者把这种操作称为 Paper Laundering,也就是论文洗稿。被这样处理后,研究本身并没有变强,只是措辞、结构和行文方式更贴合 AI 审稿人的喜好。
作者团队随机选取了 60 篇 ICLR 2026 在审论文,测试了 4 种零样本改写提示、2 种洗稿模型以及 3 种 AI 审稿模型。在 24 组实验条件下,AI 审稿分数平均上涨了 0.45 分。
顶会投稿越来越多,审稿人越来越不够用,AI 审稿自然成了一个必然选项。
但这篇论文却指出,现阶段的 AI 审稿,不只是容易被低成本文本改写带偏,还可能将整个学术圈拉进高度同质化的坑里。
论文标题:
Stop Automating Peer Review Without Rigorous Evaluation
论文链接:
http://arxiv.org/abs/2605.03202
零成本刷分
论文洗稿最麻烦的地方在于,它几乎没有门槛。它和传统的提示词注入不同,不需要在论文里隐藏指令,也不需要针对某个模型做复杂优化。
只用将论文的 LaTeX 源码完整交给大模型,用一个零样本提示要求它在不改实验、不改科学内容的前提下重写全文。整个流程不需要人工介入,单篇成本大约仅 0.25 美元。
研究团队做了一组对照实验。洗稿模型选用了 GPT-5.1 和 GPT-5.4,审稿模型则覆盖 GPT 系列模型以及 Claude Sonnet。
结果显示,洗稿后的论文在几乎所有评估条件下都获得了显著的分数提升。
〓洗稿操作在 24 种测试条件下总体推高 AI 审稿分数
从结果分布来看,对所有 AI 审稿模型来说,洗稿后分数上涨的情况都明显多于分数下降。这种跨模型、跨提示仍然有效的涨分现象,暴露了当前大模型在评估专业学术内容时的盲区。
〓各 AI 审稿模型与洗稿模型组合下,分数上升、不变与下降的比例分布
为什么只是改文字,就能影响专业打分?词频统计给出了答案。
大模型在重写时,会明显增加两类词:一类是表示不确定性的对冲词,比如 may、suggests,出现频率增加了 78.2%;另一类是强化语气、强调稳健性的词,比如 robust、strong,增加了 45.2%。
〓洗稿前后不同类型词汇的平均新增、删除数量与变化比例
这种重写,本质上是在迎合大模型自身的文本偏好。
人工复核中还发现,洗稿过程甚至会生成虚假的科学内容。部分论文被凭空添加了根本不存在的消融实验参数分析,或者为并未进行的实验补上一段看似合理的通用解释。
这说明,当前 AI 审稿人很容易被表层文本修饰带偏,无法穿透文本去评估底层的科学贡献。
丧失多元视角
如果说防作弊是审稿系统的底线,那么多视角的交叉验证则是同行评审的灵魂。人类专家的意见分歧从来不是缺陷,而是科学防错的必要机制。
但论文的量化结果显示,AI 审稿人表现出了明显的蜂群思维(Hivemind effect),多元化的审稿视角正在逐渐消失。
研究引入了两个基于文本嵌入余弦相似度的核心指标:衡量对同一篇论文评价相似度的 IntraSim,以及衡量跨论文评价相似度的 InterSim。
研究团队翻找了 ICLR 2026 所有的作者 rebuttal 记录,选出了 58 份被作者控诉为“AI 乱写”的审稿意见。
结果发现,其中高达 86.2% 的意见同样被 Pangram 检测器标记为“完全由 AI 生成”,这为后续的大规模分析提供了扎实的人类源验证。
作者团队分析了 75,800 份真实 ICLR 2026 评审。结果显示,被标注为完全 AI 生成的评审意见,相似度显著高于包含人类贡献的评审。
〓真实 ICLR 2026 评审中,被标注为完全 AI 生成的评审与其他评审的跨论文相似度分布
在排除了其他干扰的模拟测试中,这种同质化趋势更加严重。人类评审的 IntraSim 均值为 0.811,AI 评审则达到 0.882。论文被洗稿后,AI 评审相似度进一步升至 0.891。
〓模拟环境下 AI 与人类评审的篇内一致性对比
即使面对研究方向不同、技术路线不同的论文,AI 审稿人也容易写出高度相似的评价。GPT-5.1 的跨论文相似度比人类高出近 40%,Claude 也高出约 20%。
〓模拟环境下跨论文评审相似度的分布差异
这种极高的相似度,会不会仅仅是因为 AI 爱写结构化的套话?
研究团队专门做了一个消融实验打消了这个疑虑。当剔除掉背景总结等废话,仅对比最核心的“Weaknesses and Questions”部分时,AI 视角的同质化效应反而进一步放大了,这证明 AI 审稿在最实质的学术批判环节同样丧失了多样性。
GPT 最爱用的短语("if not, can you comment on")出现在了 13.3% 的论文评审中,Claude 的高频句式("how does the method handle")覆盖率更是高达 21.7%。
相比之下,真实人类评审中最常见短语的复用率不到 1%。
更危险的是,蜂群思维已经开始向作者端倒灌。当作者发现洗稿后的论文能够稳定获得高分时,自然会投其所好地使用大模型重写文本。
研究者进一步比较了 60 篇论文在洗稿前后的摘要和引言。结果显示,洗稿后不同论文之间的余弦相似度显著增加了 6.5%。
〓洗稿前后论文文本特征间的余弦相似度分布变化
如果这种自动化博弈成为常态,学术写作可能会被推向由大模型审美主导的单一文化。
那些有创新价值、但表达方式不够“模型友好”的研究,也可能在自动化筛选中被系统性过滤。
AI 打分更高,却不如人类靠谱
看到这里,很多人可能会问:人类审稿也存在主观偏见,换成 AI 又有什么不行?
两者的底层逻辑其实有着本质区别。人类审稿人的偏见分散在不同背景、不同专长里,多名审稿人放在一起,至少能互相抵消一部分。
而 AI 的错误往往更集中,基于相似架构和训练数据的模型,可能会在同一类判断上一起跑偏。
判断审稿是否靠谱,最直观的标准就是看它能不能预测论文最终是否被录用。
在 8015 篇同时拥有人类和 AI 评审的 ICLR 2026 论文中,人类平均分预测最终接收结果的 AUC 达到 0.822,而 AI 平均分的 AUC 只有 0.710。
〓人类打分与 AI 打分预测论文最终接收状态的准确度对比
数据还显示,AI 打分明显偏高。人类打分均值仅为 4.3,而 GPT 与 Claude 的打分均值分别高达 7.3 和 6.1。
此外,AI 打分相互之间呈现高度正相关,却与人类专家的打分相关性极弱。
如果会议组织方直接依赖这些内部高度相关、整体虚高、又容易受文风干扰的机器打分来做录用决策,顶会的论文质量底线必将失守。
走向同行评审自动化科学
从 ICML 到 NeurIPS,各大 AI 会议对大模型辅助审稿的态度并不一致,学术界还没有划定统一的规范边界。
〓当前各大主流 AI 顶会关于大模型使用的政策现状梳理
AI 当然可以进入审稿流程,但前提是它先经得起测试。
查格式、查引用、查事实错误,这些可验证的任务可以交给工具。但论文能不能被接收,不该交给一个会被 0.25 美元洗稿带偏、又容易把所有评审写成同一种口味的系统。
同行评审的核心,应该是专业判断和科学事实的交叉校验,而不是变成一场谁更会迎合 AI 文风的游戏。
热门跟贴