0.25美元「洗」一遍论文LaTeX，AI审稿分数原地起飞

新浪财经

2026-05-08 17:45 ·河北 ·优质财经领域创作者

来源：市场资讯

（来源：PaperWeekly）

不用补实验，只需 0.25 美元洗一遍 LaTeX，AI 审稿分数就可能原地抬升。

不用改实验，也不用补数据。只需花 0.25 美元，把论文的 LaTeX 源码丢给大模型“洗”上一遍，重新编译成 PDF 后提交给 AI 审稿人，分数就能原地起飞。

斯坦福大学等研究团队在一项刚被 ICML 2026 录用的研究中指出，这种靠洗稿刷分的系统级漏洞已经真实发生。

研究者把这种操作称为 Paper Laundering，也就是论文洗稿。被这样处理后，研究本身并没有变强，只是措辞、结构和行文方式更贴合 AI 审稿人的喜好。

作者团队随机选取了 60 篇 ICLR 2026 在审论文，测试了 4 种零样本改写提示、2 种洗稿模型以及 3 种 AI 审稿模型。在 24 组实验条件下，AI 审稿分数平均上涨了 0.45 分。

顶会投稿越来越多，审稿人越来越不够用，AI 审稿自然成了一个必然选项。

但这篇论文却指出，现阶段的 AI 审稿，不只是容易被低成本文本改写带偏，还可能将整个学术圈拉进高度同质化的坑里。

论文标题：

Stop Automating Peer Review Without Rigorous Evaluation

论文链接：

http://arxiv.org/abs/2605.03202

零成本刷分

论文洗稿最麻烦的地方在于，它几乎没有门槛。它和传统的提示词注入不同，不需要在论文里隐藏指令，也不需要针对某个模型做复杂优化。

只用将论文的 LaTeX 源码完整交给大模型，用一个零样本提示要求它在不改实验、不改科学内容的前提下重写全文。整个流程不需要人工介入，单篇成本大约仅 0.25 美元。

研究团队做了一组对照实验。洗稿模型选用了 GPT-5.1 和 GPT-5.4，审稿模型则覆盖 GPT 系列模型以及 Claude Sonnet。

结果显示，洗稿后的论文在几乎所有评估条件下都获得了显著的分数提升。

〓洗稿操作在 24 种测试条件下总体推高 AI 审稿分数

从结果分布来看，对所有 AI 审稿模型来说，洗稿后分数上涨的情况都明显多于分数下降。这种跨模型、跨提示仍然有效的涨分现象，暴露了当前大模型在评估专业学术内容时的盲区。

〓各 AI 审稿模型与洗稿模型组合下，分数上升、不变与下降的比例分布

为什么只是改文字，就能影响专业打分？词频统计给出了答案。

大模型在重写时，会明显增加两类词：一类是表示不确定性的对冲词，比如 may、suggests，出现频率增加了 78.2%；另一类是强化语气、强调稳健性的词，比如 robust、strong，增加了 45.2%。

〓洗稿前后不同类型词汇的平均新增、删除数量与变化比例

这种重写，本质上是在迎合大模型自身的文本偏好。

人工复核中还发现，洗稿过程甚至会生成虚假的科学内容。部分论文被凭空添加了根本不存在的消融实验参数分析，或者为并未进行的实验补上一段看似合理的通用解释。

这说明，当前 AI 审稿人很容易被表层文本修饰带偏，无法穿透文本去评估底层的科学贡献。

丧失多元视角

如果说防作弊是审稿系统的底线，那么多视角的交叉验证则是同行评审的灵魂。人类专家的意见分歧从来不是缺陷，而是科学防错的必要机制。

但论文的量化结果显示，AI 审稿人表现出了明显的蜂群思维（Hivemind effect），多元化的审稿视角正在逐渐消失。

研究引入了两个基于文本嵌入余弦相似度的核心指标：衡量对同一篇论文评价相似度的 IntraSim，以及衡量跨论文评价相似度的 InterSim。

研究团队翻找了 ICLR 2026 所有的作者 rebuttal 记录，选出了 58 份被作者控诉为“AI 乱写”的审稿意见。

结果发现，其中高达 86.2% 的意见同样被 Pangram 检测器标记为“完全由 AI 生成”，这为后续的大规模分析提供了扎实的人类源验证。

作者团队分析了 75,800 份真实 ICLR 2026 评审。结果显示，被标注为完全 AI 生成的评审意见，相似度显著高于包含人类贡献的评审。

〓真实 ICLR 2026 评审中，被标注为完全 AI 生成的评审与其他评审的跨论文相似度分布

在排除了其他干扰的模拟测试中，这种同质化趋势更加严重。人类评审的 IntraSim 均值为 0.811，AI 评审则达到 0.882。论文被洗稿后，AI 评审相似度进一步升至 0.891。

〓模拟环境下 AI 与人类评审的篇内一致性对比

即使面对研究方向不同、技术路线不同的论文，AI 审稿人也容易写出高度相似的评价。GPT-5.1 的跨论文相似度比人类高出近 40%，Claude 也高出约 20%。

〓模拟环境下跨论文评审相似度的分布差异

这种极高的相似度，会不会仅仅是因为 AI 爱写结构化的套话？

研究团队专门做了一个消融实验打消了这个疑虑。当剔除掉背景总结等废话，仅对比最核心的“Weaknesses and Questions”部分时，AI 视角的同质化效应反而进一步放大了，这证明 AI 审稿在最实质的学术批判环节同样丧失了多样性。

GPT 最爱用的短语（"if not, can you comment on"）出现在了 13.3% 的论文评审中，Claude 的高频句式（"how does the method handle"）覆盖率更是高达 21.7%。

相比之下，真实人类评审中最常见短语的复用率不到 1%。

更危险的是，蜂群思维已经开始向作者端倒灌。当作者发现洗稿后的论文能够稳定获得高分时，自然会投其所好地使用大模型重写文本。

研究者进一步比较了 60 篇论文在洗稿前后的摘要和引言。结果显示，洗稿后不同论文之间的余弦相似度显著增加了 6.5%。

〓洗稿前后论文文本特征间的余弦相似度分布变化

如果这种自动化博弈成为常态，学术写作可能会被推向由大模型审美主导的单一文化。

那些有创新价值、但表达方式不够“模型友好”的研究，也可能在自动化筛选中被系统性过滤。

AI 打分更高，却不如人类靠谱

看到这里，很多人可能会问：人类审稿也存在主观偏见，换成 AI 又有什么不行？

两者的底层逻辑其实有着本质区别。人类审稿人的偏见分散在不同背景、不同专长里，多名审稿人放在一起，至少能互相抵消一部分。

而 AI 的错误往往更集中，基于相似架构和训练数据的模型，可能会在同一类判断上一起跑偏。

判断审稿是否靠谱，最直观的标准就是看它能不能预测论文最终是否被录用。

在 8015 篇同时拥有人类和 AI 评审的 ICLR 2026 论文中，人类平均分预测最终接收结果的 AUC 达到 0.822，而 AI 平均分的 AUC 只有 0.710。

〓人类打分与 AI 打分预测论文最终接收状态的准确度对比

数据还显示，AI 打分明显偏高。人类打分均值仅为 4.3，而 GPT 与 Claude 的打分均值分别高达 7.3 和 6.1。

此外，AI 打分相互之间呈现高度正相关，却与人类专家的打分相关性极弱。

如果会议组织方直接依赖这些内部高度相关、整体虚高、又容易受文风干扰的机器打分来做录用决策，顶会的论文质量底线必将失守。

走向同行评审自动化科学

从 ICML 到 NeurIPS，各大 AI 会议对大模型辅助审稿的态度并不一致，学术界还没有划定统一的规范边界。

〓当前各大主流 AI 顶会关于大模型使用的政策现状梳理

AI 当然可以进入审稿流程，但前提是它先经得起测试。

查格式、查引用、查事实错误，这些可验证的任务可以交给工具。但论文能不能被接收，不该交给一个会被 0.25 美元洗稿带偏、又容易把所有评审写成同一种口味的系统。

同行评审的核心，应该是专业判断和科学事实的交叉校验，而不是变成一场谁更会迎合 AI 文风的游戏。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴