自2022年底ChatGPT发布以来,有人注意到了一个趋势:ChatGPT越来越多地被用于论文的同行评审中。
有几个明显的迹象。AI工具撰写的审稿意见往往语气正式、文字冗长,这通常与大语言模型(LLMs)的写作风格有关。例如,现在同行评审中诸如“commendable [值得称赞]”和“meticulous [一丝不苟]”之类的词比2022年之前多出十倍。AI生成的审稿意见往往也是肤浅而笼统的,通常没有针对该论文的特定意见,且缺乏参考文献。
来自美国斯坦福大学的研究者检查了2023-2024年约5万篇计算机领域会议论文的同行评审。根据写作风格和某些单词出现的频率,估计7-17%的句子是由LLMs撰写。
原文链接:https://proceedings.mlr.press/v235/liang24b.html
时间不够可能是审稿人使用LLMs撰写审稿意见的原因之一 。在截止日期前提交的评审意见中,LLMs撰写的比例更高。这种趋势估计还会加剧。
LLMs的使用应该限于某些任务,如纠正语法、回答与论文相关的简单问题、识别某些信息。如果不负责任地随意使用,LLMs可能会破坏科学的完整性。因此,学术界亟需制定规范,以指导如何在同行评审过程中合理使用这些模型。
首先,必须认识到,目前的LLMs无法取代审稿人。尽管LLMs具有一定的能力,但它们无法进行深入的科学推理,有时还会进行无意义的回复。《NEJM AI》的一项研究显示,研究者普遍抱怨LLMs的审稿意见缺乏深度,尤其是在评审论文的研究方法时。此外,LLMs也很容易忽视论文中的错误。
原文链接:https://ai.nejm.org/doi/10.1056/AIoa2400196
LLMs可能适合某些场景。对于审稿人,AI聊天机器人可以帮助在提交审稿意见前提供建议,使得模糊的建议更具操作性;或者对论文中可能被审稿人遗漏的部分进行强调。对于编辑,LLMs可以检索和总结相关论文,以帮助他们了解研究背景,并验证论文的提交是否遵循了清单(例如,确保正确报告统计数据)。这些环节使用AI的风险相对较低,如果实施得当,可以节省编辑和审稿人的时间。
不过,即使在执行低风险的信息检索和任务总结时,LLMs也可能会犯错。因此,LLMs输出的内容应被视为起点,而不是最终答案。用户仍应对LLMs输出的内容进行检查。
期刊和会议可能会尝试使用AI算法来检测同行评审和论文中LLMs的使用情况,但其效果有限。此类检测可以突出显示AI生成的文本,但很容易产生误报。例如,将非英语母语研究者撰写的文本标记为“AI生成”。检测器通常很难区分LLMs的合理使用(如论文润色)和不恰当使用(如使用聊天机器人撰写整篇报告)。
归根结底,防止AI主导同行评审的最佳方法可能是在此过程中促进更多的互动。OpenReview(网址:https://openreview.net/)等平台鼓励审稿人和作者进行匿名互动,通过多轮讨论解决问题,目前已被一些会议和期刊采用。
在学术写作和同行评审中使用LLMs是无法阻止的。为应对这一转变,期刊和会议应制定明确的指南。期刊至少应要求审稿人披露在审稿过程中是否以及如何使用LLMs。还需要适应AI时代的创新型交互式同行评审平台,从而能够限制LLMs的任务范围。与此同时,还需开展更多研究,以探索AI如何更精准地协助完成同行评审任务。建立规范将有助于确保LLMs既有利于编辑、审稿人和作者,又不损害科学完整性。
本文整理自:https://www.nature.com/articles/d41586-024-03588-8
热门跟贴