学术顶流预印本平台ArXiv祭出重罚：AI垃圾论文作者禁投一年|arxiv|学术|文献|科学|论文|顶流|预印本

周四深夜，一条推文让全球学术圈炸锅了。Thomas Dietterich——ArXiv计算机科学板块的主席——在X上扔下一颗炸弹：如果作者提交明显由AI生成的论文，将被封禁一年。这不是警告，是实打实的"一击出局"。

Dietterich的原话很硬："如果生成式AI工具产出了不当语言、抄袭内容、偏见内容、错误、失误、错误引用或误导性内容，而作者把这些输出塞进了学术作品，责任全在作者。"他补充了一个关键细节：必须有"无可辩驳的证据"证明作者根本没检查过大语言模型的输出结果，才会触发处罚。

什么样的证据算"无可辩驳"？他举了两个让人哭笑不得的例子：一是"幻觉引用"——AI编造的假文献；二是大模型自己的"元评论"还留在正文里，比如"这是一份200字的摘要，需要我修改吗？"或者"这张表的数据是示意性的，请用你的实验真实数据填充"。想象一下，审稿人读到这种句子时的心情。

处罚力度是阶梯式的：先封一年，解封后还得先去"正规同行评审期刊"发一篇被接收的论文，才能重新获得ArXiv投稿资格。Dietterich周五早上在邮件里向我确认，这是"一击规则"——抓一次就禁，但他也留了口子：决定可以申诉。内部流程是 moderator 先记录问题，再由板块主席确认，双重把关。

这记重拳不是凭空来的。ArXiv去年11月就已经动手了——宣布不再接收计算机科学领域的综述文章和立场论文，理由是平台正被"AI垃圾"淹没。当时的官方新闻稿写得直白："生成式AI/大语言模型让写论文——尤其是不引入新研究结果的论文——变得又快又容易。"虽然ArXiv全品类投稿都在涨，但计算机科学板块的涨幅"尤其夸张"。

今年1月，ArXiv又加了一道锁：首次投稿者需要获得已建立信誉的作者背书，原因是欺诈性投稿激增。两道防线下来，平台显然觉得还不够。

AI生成的虚假引用正在成为学术界的瘟疫。哥伦比亚大学研究人员最近的一项研究扫描了250万篇生物医学论文，时间跨度三年。他们发现：2023年，每2828篇论文中有1篇含伪造引用；2025年，这个数字变成每458篇中有1篇；而2026年头七周，已经恶化到每277篇就有1篇。曲线陡峭得让人心惊。

这些AI产物正在从两头挤压同行评审系统：一头是虚假引用和论文让审稿人疲于甄别，另一头是越来越多带着"元评论"和幻觉数据的漏网之鱼成功发表。ArXiv作为全球最大的开放获取预印本平台，每年承载着数百万篇论文的流通，它的态度转变具有风向标意义。

值得注意的是，ArXiv目前由康奈尔科技学院（Cornell Tech）运营，但今年7月即将成为独立非营利机构。Greg Morrisett——康奈尔科技学院的院长兼副校长——向Science.org透露了这一转型。独立后的ArXiv，在治理上或许能更灵活地应对AI冲击，但也面临更大的运营压力。

Dietterich的表态里有个细节值得玩味：他反复强调"无可辩驳的证据"。这意味着ArXiv并不打算搞AI侦探游戏，不会用算法扫描每一篇论文的"AI味"。只有当作者粗心到把"请填充真实数据"这种提示语都忘了删，或者引用了一篇根本不存在的文献，才会触发红线。这种策略很务实——既划清了底线，又避免了过度审查的争议。

但隐患也在这里。如果作者稍微用心一点，把AI输出"洗"一遍，删掉明显的元评论，编造引用时多查一步，ArXiv的防线还能奏效吗？一年封禁的威慑力，能否跑赢AI工具的进化速度？这些问题，Dietterich没有回答，可能也无人能答。

对研究者来说，这条新规敲响了警钟：用大语言模型辅助写作可以，但把脑子完全交给机器，代价可能是职业生涯的断档。一年不能投ArXiv，在计算机科学领域几乎等同于学术失联——毕竟这里的大部分人，习惯先在ArXiv占坑，再慢慢走期刊流程。

更深层的信号是：学术共同体正在重新划定人机协作的边界。ArXiv不是反对AI工具，反对的是"不检查结果的LLM生成内容"。这个区分很关键。它保留了AI作为写作助手的合法性，但把责任牢牢钉死在作者身上。机器可以帮你写，但你得为每一个字背书。

7月独立后的ArXiv，将如何平衡开放获取的理想与AI时代的信任危机，值得持续关注。而对于正在用ChatGPT润色论文的研究者来说，一个基本建议或许能救命：提交前，全文搜索"here is"和"fill in"——你永远不知道AI在什么角落留下了它的签名。