在人工智能研究领域工作的科学家们正面临一个他们无法再忽视的可信度问题。

专注于人工智能研究的主要会议在审稿系统因低质量投稿而变得拥挤后做出了反应。

组织者发现,几乎不需要人力投入的论文和同行评审数量急剧增加。关注的重点不是风格,而是准确性。错误正在渗入曾经至关重要的精确领域。

会议加强审查,低质量论文淹没评审者

研究人员早已警告,对自动写作工具的无节制使用可能会损害该领域。加州大学伯克利分校的人工智能研究员Inioluwa Deborah Raji表示,情况迅速变得混乱不堪。

“其实有一点讽刺的是,我们领域因人工智能的广泛使用而经历了混乱的局面,这一点有些讽刺,”她说。

有确凿的数据表明这个问题的普遍性。斯坦福大学在八月发布的一项研究发现,最多有22%的计算机科学论文显示出大型语言模型的使用迹象。

文本分析初创公司Pangram对2025年国际学习表征会议的提交和同行评审进行了审查。它估计21%的评论完全由人工智能生成,而超过一半的评论则用于编辑等任务。Pangram还发现,9%的提交论文中超过一半的内容是这样生成的。

这个问题在11月达到了一个临界点。ICLR的审稿人标记了一篇被怀疑是由AI生成的论文,这篇论文在审稿评分中仍然位列前17%。在1月份,检测公司GPTZero报告说,在NeurIPS上提交的50篇论文中发现了超过100个自动化生成的错误,该会议被广泛认为是该领域高级研究的顶尖会议。

随着人们的担忧加剧,ICLR在会议前更新了其使用规则。未能披露广泛使用语言模型的论文现在面临被拒绝。提交低质量评估的审稿人如果使用自动化工具,面临处罚的风险,包括自己的论文被拒。

加州大学伯克利分校的计算机科学教授哈尼·法里德表示:“如果你发布的论文质量极低且完全错误,社会为什么要信任我们这些科学家呢?”

论文数量激增,而检测却难以跟上

论文数量激增,而检测却难以跟上

根据报告,NeurIPS在2025年收到了21,575篇论文,较2024年的17,491篇和2020年的9,467篇有所上升。一位作者在一年内提交了超过100篇论文,远远超过了一个研究者通常提交的数量。

俄勒冈州立大学名誉教授、arXiv计算机科学部分主席托马斯·G·迪特里希表示,开放存储库的上传数量也大幅增加。

尽管如此,研究人员们表示,原因并不简单。一些人认为增加的原因是更多人进入了这个领域。另一些人认为,AI工具的广泛使用是主要原因。因为目前没有统一的标准来识别自动生成的文本,检测依然很困难。迪特里希表示,常见的警示信号包括虚假的参考文献和错误的数据。如果被发现这样做,作者可能会被暂时禁止在arXiv上发布。

商业压力也在背后存在。高调的展示、飙升的薪水和激烈的竞争使得该领域的一些方向开始更加关注数量。拉吉表示,炒作的时刻吸引了那些寻求快速结果的外部人士。

与此同时,研究人员表示某些用途是合理的和合法的。迪特里希指出,中国的论文写作质量有所提高,这可能是因为语言工具帮助他们更清晰地重写英语。

现在这个问题已经超出了出版领域。像谷歌、Anthropic 和 OpenAI 这样的公司将他们的模型宣传为可以加速生命科学等领域研究的合作伙伴。这些系统是通过学术文本进行训练的。

法里德警告说,如果训练数据包含过多合成数据,模型性能可能会下降。过去的研究表明,当大型语言模型接收到未经筛选的自动化数据时,可能会变得毫无意义。

法里德表示,那些抓取研究资料的公司有强烈的动机去了解哪些论文是人类撰写的。OpenAI的科学负责人凯文·韦尔表示,这些工具仍需人工审核。“这可以是一个巨大的加速器,”他说。“但你必须进行检查。这并不意味着你可以放松要求。”