周四深夜,一条推文让全球学术圈炸锅了。Thomas Dietterich——ArXiv计算机科学板块的主席——在X上扔下一颗炸弹:如果作者提交明显由AI生成的论文,将被封禁一年。这不是警告,是实打实的"一击出局"。
Dietterich的原话很硬:"如果生成式AI工具产出了不当语言、抄袭内容、偏见内容、错误、失误、错误引用或误导性内容,而作者把这些输出塞进了学术作品,责任全在作者。"他补充了一个关键细节:必须有"无可辩驳的证据"证明作者根本没检查过大语言模型的输出结果,才会触发处罚。
什么样的证据算"无可辩驳"?他举了两个让人哭笑不得的例子:一是"幻觉引用"——AI编造的假文献;二是大模型自己的"元评论"还留在正文里,比如"这是一份200字的摘要,需要我修改吗?"或者"这张表的数据是示意性的,请用你的实验真实数据填充"。想象一下,审稿人读到这种句子时的心情。
处罚力度是阶梯式的:先封一年,解封后还得先去"正规同行评审期刊"发一篇被接收的论文,才能重新获得ArXiv投稿资格。Dietterich周五早上在邮件里向我确认,这是"一击规则"——抓一次就禁,但他也留了口子:决定可以申诉。内部流程是 moderator 先记录问题,再由板块主席确认,双重把关。
这记重拳不是凭空来的。ArXiv去年11月就已经动手了——宣布不再接收计算机科学领域的综述文章和立场论文,理由是平台正被"AI垃圾"淹没。当时的官方新闻稿写得直白:"生成式AI/大语言模型让写论文——尤其是不引入新研究结果的论文——变得又快又容易。"虽然ArXiv全品类投稿都在涨,但计算机科学板块的涨幅"尤其夸张"。
今年1月,ArXiv又加了一道锁:首次投稿者需要获得已建立信誉的作者背书,原因是欺诈性投稿激增。两道防线下来,平台显然觉得还不够。
AI生成的虚假引用正在成为学术界的瘟疫。哥伦比亚大学研究人员最近的一项研究扫描了250万篇生物医学论文,时间跨度三年。他们发现:2023年,每2828篇论文中有1篇含伪造引用;2025年,这个数字变成每458篇中有1篇;而2026年头七周,已经恶化到每277篇就有1篇。曲线陡峭得让人心惊。
这些AI产物正在从两头挤压同行评审系统:一头是虚假引用和论文让审稿人疲于甄别,另一头是越来越多带着"元评论"和幻觉数据的漏网之鱼成功发表。ArXiv作为全球最大的开放获取预印本平台,每年承载着数百万篇论文的流通,它的态度转变具有风向标意义。
值得注意的是,ArXiv目前由康奈尔科技学院(Cornell Tech)运营,但今年7月即将成为独立非营利机构。Greg Morrisett——康奈尔科技学院的院长兼副校长——向Science.org透露了这一转型。独立后的ArXiv,在治理上或许能更灵活地应对AI冲击,但也面临更大的运营压力。
Dietterich的表态里有个细节值得玩味:他反复强调"无可辩驳的证据"。这意味着ArXiv并不打算搞AI侦探游戏,不会用算法扫描每一篇论文的"AI味"。只有当作者粗心到把"请填充真实数据"这种提示语都忘了删,或者引用了一篇根本不存在的文献,才会触发红线。这种策略很务实——既划清了底线,又避免了过度审查的争议。
但隐患也在这里。如果作者稍微用心一点,把AI输出"洗"一遍,删掉明显的元评论,编造引用时多查一步,ArXiv的防线还能奏效吗?一年封禁的威慑力,能否跑赢AI工具的进化速度?这些问题,Dietterich没有回答,可能也无人能答。
对研究者来说,这条新规敲响了警钟:用大语言模型辅助写作可以,但把脑子完全交给机器,代价可能是职业生涯的断档。一年不能投ArXiv,在计算机科学领域几乎等同于学术失联——毕竟这里的大部分人,习惯先在ArXiv占坑,再慢慢走期刊流程。
更深层的信号是:学术共同体正在重新划定人机协作的边界。ArXiv不是反对AI工具,反对的是"不检查结果的LLM生成内容"。这个区分很关键。它保留了AI作为写作助手的合法性,但把责任牢牢钉死在作者身上。机器可以帮你写,但你得为每一个字背书。
7月独立后的ArXiv,将如何平衡开放获取的理想与AI时代的信任危机,值得持续关注。而对于正在用ChatGPT润色论文的研究者来说,一个基本建议或许能救命:提交前,全文搜索"here is"和"fill in"——你永远不知道AI在什么角落留下了它的签名。
热门跟贴