顶会论文造假：50多篇ICLR论文怎么骗过同行评审的

薛定谔的BUG

2026-04-24 08:03 ·北京

当一篇论文的参考文献有一半查无出处，它凭什么能通过两轮评审？ICLR 2026的丑闻给出了一个令人不安的答案。

从法庭到顶会：同一种幻觉，同一种漏洞

法律界早就踩过这个坑。2023年的Mata v. Avianca案里，律师用ChatGPT写诉状，结果引用了六个根本不存在的判例。法官没接受"我不懂AI"的借口，直接开出了制裁罚单。

这不是个案。研究显示，即便是加了检索增强（检索增强生成，即让模型先查资料再回答）的法律写作工具，面对复杂查询时也会捏造近三分之一的引用。而且这些不是实验室原型，是正经在售的商业产品。

学者James把这类错误分成两档：

「误植型」——曲解或错引真实来源；「凭空捏造型」——直接发明案例、法条、引文。ICLR 2026的论文们两样都占了：有的把前人工作的基线性能写错，有的干脆引用不存在的数据集和"前人研究"，搜索引擎根本抓不到。

核心问题被一句点破：大语言模型的优化目标是"下一个词最像人话"，不是"这句话为真"。指望下一代模型自动解决这个问题，属于一厢情愿。

评审机制是怎么被攻破的

一个小型机器学习会议的程序主席讲过一件事：一篇"明显是AI写的、打磨得很漂亮"的论文，差点骗过两个超负荷工作的审稿人。最后是个志愿者发现，一半参考文献根本解析不出来。ICLR 2026只是把这套剧本放大了。

技术层面，幻觉有几条渗透路径：

第一，"请总结X方向的相关工作"——这种提示词会让模型在不确定时依然输出看似合理的综述，夹带私货。

第二，虚构的会议名、数据集名、基准测试名，听起来像真的。

第三，根本没跑过的消融实验，被写成"我们尝试了A/B/C三种设置"。

审稿人面对 polished 的文本，加上自身时间压力，验证动力天然不足。而生成式工具的输出又恰好擅长"看起来对"。

责任该由谁扛？

法律学者Shamov的观点值得注意：个人追责不够，因为"经过认证"的工具本身就被证明不可靠。他主张责任分散到三层——工具开发商、机构/平台、实际使用者。

学术出版完全对得上这个框架：

• 厂商做写作和文献工具

• 会议方定政策和评审流程

• 作者和审稿人选择并验证输出

目前三层都在失灵。工具没内置事实核查，会议没针对AI写作调整审稿标准，作者和审稿人则普遍缺乏验证纪律。

清单：AI辅助研究的五条底线

既然幻觉是模型结构的内禀特性， workaround 必须从流程入手。参考法律和安全关键领域的做法，可以列出这几条：

1. 参考文献必须逐条核验

不是抽查，是全部。用学术搜索引擎、期刊官网、作者个人页交叉确认。ICLR 2026的造假论文里，"查无此文"的引用占了相当比例——这本是审稿环节就能拦截的。

2. 数据集和基准测试要验证可获取性

论文声称用了某个数据集？去官方仓库下载试试。声称在某个基准上跑了分数？找 leaderboard 核对。很多幻觉数据集的名字起得很像真的，但域名、机构、年份对不上。

3. 消融实验保留执行痕迹

代码版本、随机种子、运行日志。不是说作者都会造假，而是这些痕迹让"声称跑过"变成"可以复现"。

4. 工具输出标记与隔离

哪些段落是AI生成的初稿，哪些是经人工改写的事实陈述，应当有明确区分。这不是为了惩罚使用AI，而是为了在出问题时快速定位。

5. 审稿流程增加对抗性检查

现在的审稿是"找亮点"，需要补一道"找硬伤"的工序。可以随机抽取引用、数据集、实验配置进行强制核验，也可以引入专门的"红队"审稿人。

一个行业级的问题

ICLR 2026不是孤立事件。法律、安全、软件工程都出现了同样的模式：流畅的AI输出被当作事实，治理规则跟不上技术扩散速度。

区别在于，法律界已经用判例和制裁建立了底线。学术界的反应还在"建议"和"倡导"层面。当一篇顶会论文的引用有50%是假的，它损害的不只是那届会议的声誉——而是整个同行评审制度的可信度。

如果明年的投稿系统不强制要求参考文献哈希校验，不接入数据集注册表，我们是在等下一个ICLR 2027吗？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴