当一篇论文的参考文献有一半查无出处,它凭什么能通过两轮评审?ICLR 2026的丑闻给出了一个令人不安的答案。
从法庭到顶会:同一种幻觉,同一种漏洞
法律界早就踩过这个坑。2023年的Mata v. Avianca案里,律师用ChatGPT写诉状,结果引用了六个根本不存在的判例。法官没接受"我不懂AI"的借口,直接开出了制裁罚单。
这不是个案。研究显示,即便是加了检索增强(检索增强生成,即让模型先查资料再回答)的法律写作工具,面对复杂查询时也会捏造近三分之一的引用。而且这些不是实验室原型,是正经在售的商业产品。
学者James把这类错误分成两档:
「误植型」——曲解或错引真实来源;「凭空捏造型」——直接发明案例、法条、引文。ICLR 2026的论文们两样都占了:有的把前人工作的基线性能写错,有的干脆引用不存在的数据集和"前人研究",搜索引擎根本抓不到。
核心问题被一句点破:大语言模型的优化目标是"下一个词最像人话",不是"这句话为真"。指望下一代模型自动解决这个问题,属于一厢情愿。
评审机制是怎么被攻破的
一个小型机器学习会议的程序主席讲过一件事:一篇"明显是AI写的、打磨得很漂亮"的论文,差点骗过两个超负荷工作的审稿人。最后是个志愿者发现,一半参考文献根本解析不出来。ICLR 2026只是把这套剧本放大了。
技术层面,幻觉有几条渗透路径:
第一,"请总结X方向的相关工作"——这种提示词会让模型在不确定时依然输出看似合理的综述,夹带私货。
第二,虚构的会议名、数据集名、基准测试名,听起来像真的。
第三,根本没跑过的消融实验,被写成"我们尝试了A/B/C三种设置"。
审稿人面对 polished 的文本,加上自身时间压力,验证动力天然不足。而生成式工具的输出又恰好擅长"看起来对"。
责任该由谁扛?
法律学者Shamov的观点值得注意:个人追责不够,因为"经过认证"的工具本身就被证明不可靠。他主张责任分散到三层——工具开发商、机构/平台、实际使用者。
学术出版完全对得上这个框架:
• 厂商做写作和文献工具
• 会议方定政策和评审流程
• 作者和审稿人选择并验证输出
目前三层都在失灵。工具没内置事实核查,会议没针对AI写作调整审稿标准,作者和审稿人则普遍缺乏验证纪律。
清单:AI辅助研究的五条底线
既然幻觉是模型结构的内禀特性, workaround 必须从流程入手。参考法律和安全关键领域的做法,可以列出这几条:
1. 参考文献必须逐条核验
不是抽查,是全部。用学术搜索引擎、期刊官网、作者个人页交叉确认。ICLR 2026的造假论文里,"查无此文"的引用占了相当比例——这本是审稿环节就能拦截的。
2. 数据集和基准测试要验证可获取性
论文声称用了某个数据集?去官方仓库下载试试。声称在某个基准上跑了分数?找 leaderboard 核对。很多幻觉数据集的名字起得很像真的,但域名、机构、年份对不上。
3. 消融实验保留执行痕迹
代码版本、随机种子、运行日志。不是说作者都会造假,而是这些痕迹让"声称跑过"变成"可以复现"。
4. 工具输出标记与隔离
哪些段落是AI生成的初稿,哪些是经人工改写的事实陈述,应当有明确区分。这不是为了惩罚使用AI,而是为了在出问题时快速定位。
5. 审稿流程增加对抗性检查
现在的审稿是"找亮点",需要补一道"找硬伤"的工序。可以随机抽取引用、数据集、实验配置进行强制核验,也可以引入专门的"红队"审稿人。
一个行业级的问题
ICLR 2026不是孤立事件。法律、安全、软件工程都出现了同样的模式:流畅的AI输出被当作事实,治理规则跟不上技术扩散速度。
区别在于,法律界已经用判例和制裁建立了底线。学术界的反应还在"建议"和"倡导"层面。当一篇顶会论文的引用有50%是假的,它损害的不只是那届会议的声誉——而是整个同行评审制度的可信度。
如果明年的投稿系统不强制要求参考文献哈希校验,不接入数据集注册表,我们是在等下一个ICLR 2027吗?
热门跟贴