自从人工智能(AI)聊天机器人 ChatGPT 于 2022 年末发布以来,计算机科学家们注意到了一个令人担忧的趋势:聊天机器人越来越多地被用于同行评审研究论文,而这些论文最终都会被收录到重要会议的论文集中。

打开网易新闻 查看精彩图片

这有几个明显的迹象。 人工智能工具撰写的评论因其正式的语气和冗长的文字而引人注目--这些特征通常与大型语言模型(LLM)的写作风格有关。 例如,"值得称赞"和"一丝不苟"等词现在在同行评论中的出现率是 2022 年之前的十倍。 人工智能生成的评论也往往流于肤浅和泛泛而谈,经常不提及所提交论文的具体章节,也缺乏参考文献。

这是我和我在加利福尼亚州斯坦福大学的同事在研究 2023 年和 2024 年发表在会议论文集上的约 50,000 篇计算机科学文章的同行评论时发现的。 根据写作风格和某些词语出现的频率,我们估计评论中7%-17%的句子是由法学硕士撰写的(W. Liang et al.Proc. Conf. Mach. Learn.235, 29575-29620; 2024)。

缺乏时间可能是使用法律硕士撰写同行评议的原因之一。 我们发现,在临近截止日期提交的评论中,由法律硕士撰写的文本比例更高。 这种趋势只会加剧。 目前,编辑们已经在努力争取及时审稿,而审稿人则被各种要求压得喘不过气来。

幸运的是,人工智能系统可以帮助解决这些问题。 为此,LLM 的使用必须仅限于特定任务--例如纠正语言和语法、回答简单的稿件相关问题以及识别相关信息。 然而,如果不负责任地使用,LLM 有可能破坏科学进程的完整性。 因此,当务之急是,科学界应就如何在学术同行评审过程中负责任地使用这些模型制定规范。

首先,必须认识到,目前的法律硕士无法取代人类专家审稿人。 尽管 LLM 具备一定的能力,但它们无法进行深入的科学推理。 他们有时还会产生无意义的回应,即所谓的幻觉。 获得法学硕士撰写的手稿评审意见的研究人员普遍抱怨,反馈意见缺乏技术深度,尤其是在方法论批评方面(W. Liang et al.NEJM AI1, AIoa2400196; 2024)。 法学硕士也很容易忽略研究论文中的错误。

鉴于这些注意事项,在部署 LLM 时需要深思熟虑的设计和护栏。 对于审稿人来说,人工智能聊天机器人助手可以在同行评议提交之前提供反馈,告诉作者如何使模糊的建议更具可操作性。 它还可以突出显示论文中可能被审稿人遗漏的部分,这些部分已经解决了审稿中提出的问题。

为了帮助编辑,LLM 可以检索和总结相关论文,帮助他们了解工作的背景,并核实是否遵守了投稿核对表(例如,确保正确报告统计数据)。 这些都是风险相对较低的 LLM 应用程序,如果实施得当,可以节省审稿人和编辑的时间。

然而,即使在执行低风险的信息检索和总结任务时,LLM 也可能会犯错误。 因此,应将 LLM 的输出结果视为一个起点,而不是最终答案。 用户仍应交叉检查 LLM 的工作。

期刊和会议可能会倾向于使用人工智能算法来检测同行评议和论文中使用 LLM 的情况,但其功效有限。 虽然这种检测器可以突出显示人工智能生成文本的明显实例,但也容易产生误报--例如,将母语不是英语的科学家撰写的文本标记为人工智能生成的文本。 用户也可以通过有策略地提示 LLM 来避免检测。 检测器通常很难区分LLM的合理使用(例如润色原始文本)和不恰当使用(例如使用聊天机器人撰写整篇报告)。

归根结底,防止人工智能主宰同行评审的最佳方法可能是在评审过程中促进更多的人际互动。 OpenReview 等平台鼓励审稿人和作者进行匿名互动,通过多轮讨论来解决问题。 一些主要的计算机科学会议和期刊现在都在使用 OpenReview。

学术写作和同行评审中使用 LLM 的浪潮不可阻挡。 为引导这一转变,期刊和会议场所应制定明确的指导方针,并建立相关制度加以执行。 至少,期刊应要求审稿人透明地披露他们在审稿过程中是否以及如何使用LLM。 我们还需要适应人工智能时代的创新型互动同行评议平台,它可以自动将LLM的使用限制在有限的任务范围内。 与此同时,我们还需要更多关于人工智能如何负责任地协助完成某些同行评审任务的研究。 建立社区规范和资源将有助于确保LLM既有利于审稿人、编辑和作者,又不损害科学过程的完整性。

作者:James Zou