尽管有部分研究表明,用 AI 协助同行评审并不完全可靠,但随着近年来一些会议、期刊的投稿量逐渐上涨,为了提高审稿效率,许多评审不可避免地会选择使用 AI 来帮助自己完成这些工作,何况在一些方面,这些工具的作用也的确不小。

除了提高审稿速度之外,通过模式识别与数据分析,AI 算法也可以在一定程度上帮助识别并缓解审稿中的偏见问题等,一定程度上能促进更加公平透明的评审环境。

甚至于,相比于那些简略的“Reject”意见,AI 起草的评审意见,也总是更有“人情味”,更能让人接受。

打开网易新闻 查看精彩图片

图丨在之前的一项调查研究中,57.4% 的研究人员认为 GPT-4 生成的反馈有帮助/非常有帮助,82.4% 的研究人员认为它比至少一些人类审阅者的反馈更有益(来源:arXiv)

在这种形势下,相比起完全禁止在评审中使用 AI,引导它们的规范使用显然是更为明智的选择,毕竟,堵不如疏。

那么,究竟怎样才能既保证评审的准确性与可靠性,又能借 AI 提高效率呢?

近日,来自德国达姆施塔特工业大学等学校的17位学者合作,共同发布了一篇在AI 协助同行评审的使用指南,对这一问题作出了回答。

打开网易新闻 查看精彩图片

图丨相关论文(来源:arXiv)

团队分别从同行评审的前、中、后三个阶段对其使用方式与作用进行了分析。并且,他们还创建了一个配套存储库,汇总了现有的与同行评审有关的关键数据集(参见:https://github.com/OAfzal/nlp-for-peer-review)。

打开网易新闻 查看精彩图片

图丨同行评审的流程(来源:arXiv)

审稿预备

打开网易新闻 查看精彩图片

图丨审稿预备环节中 AI 能够协助的方面(来源:arXiv)

首先,在评审之前,提交一份清晰明了的稿件无疑是顺利审稿的基础。在遵守学术诚信的情况下,使用自然语言处理(NLP)帮助改善文风、提升清晰度等就有助于提升提交内容的易审性,同时也减轻作者的前期准备工作。

例如 Grammarly 和 WordTune 等写作助手,以及专门的学术写作工具,如 Curie、PaperPal 和 Writefull 等就能在这一环节发挥作用。

打开网易新闻 查看精彩图片

图丨PaperPal 的使用界面(链接:https://paperpal.com/)

同时,在提交过程中,NLP 也可以辅助生成关键词、自动建议主题分类等,或是将稿件格式调整为不同展示形式,如图形摘要、视频预览等。在初筛阶段,也能用以快速审查论文格式、查重和匿名状态等,加速之后的审稿流程。

而审稿还有很重要的一环是,要将论文匹配至合适的审稿人手中。

NLP 技术在提升审稿人与论文匹配度方面就具有很大的潜力,尤其是在评估审稿人对特定投稿的适合度及其审稿能力方面。例如Semantic Scholar等软件就是基于审稿人出版历史与投稿内容的文本相似性对二者进行匹配。

打开网易新闻 查看精彩图片

图丨Semantic Scholar 的使用界面(链接:https://www.semanticscholar.org/)

但文本相似度评分也存在局限,例如相似度得分易受干扰等。

所以还有关键词匹配(通过作者和审稿人选择的预设标签促进匹配)、审稿人主动投标(引入了审稿人的主观意愿和专业知识自评)等方法。这些方法具有一定的主观性限制,引入 NLP 则可以帮助消除歧义、强化相关性,以及减少策略性投标等串通行为。

而且 NLP 还能在识别利益冲突、自动确定评审质量以筛选优秀审稿人等方面发挥作用。

审稿环节

打开网易新闻 查看精彩图片

图丨审稿环节中 AI 能够协助的方面(来源:arXiv)

到了关键的审稿环节,NLP 主要的协助目标则是减少审稿人的工作量,从读稿、审稿到撰写意见等各个流程,它都能参与其中,帮助完成扎实而彻底的评估。

具体而言,主要有以下作用。

从一开始的稿件阅读环节起,AI 就能派上用场。

例如 SCIM 等阅读工具就能通过在文稿中标识出关键元素,能帮助审稿人快速把握文章核心;或是 ScholarPhi 可以为数学公式提供定义,增强理解。还有 ReviewFlow 等引导式审阅工具,能够通过提供结构化指南,极大地提升审阅质量。

打开网易新闻 查看精彩图片

图丨SCIM 的阅读界面(来源:arXiv)

而且,NLP 能通过引文推荐工具,帮助审稿人发现未提及的相关文献,从而更准确评估新颖性,解决新颖性评价不公允问题。这类工具还能够帮助检查引用的准确性,确保审稿判断的合理性和论文动机。

在检阅稿件时,NLP 则可以识别数学错误或实验设计问题,或是检查实验标准,如统计测试报告等,以确保可重复性。

例如,此前的一项研究就发现,在识别科学论文中的数学与概念错误时,LLM 的准确率能够达到 86.6%。

打开网易新闻 查看精彩图片

图丨相关论文(来源:arXiv)

而在审稿报告的撰写环节,NLP 就更是专业对口了。之前的研究就表明,审稿意见的冒犯性会对投稿者造成心理困扰,尤其是对于那些初入学界的年轻研究人员来说

通过分析评论的语气、清晰度和依据,或是辅助进行语用学分析和论证挖掘,NLP 就能使审稿意见更规范、更具有建设性且符合学界标准。

打开网易新闻 查看精彩图片

图丨相关论文(来源:Language Resources and Evaluation)

更进一步地,NLP 可以通过分数预测和置信度分析,辅助分数调整、解决校准问题等工作,从而减少评审的主观性影响。特别是在不同审稿人对标准如新颖性理解不一时,NLP 能从评审的总体评论中提取偏好,从而校准偏差。

同时,在作者和审稿人进行讨论时,NLP 也能通过跨文档分析快速定位关键的讨论点,提高对话效率,或是用它来及时跟进后续的作者回复等环节。

审稿后续

打开网易新闻 查看精彩图片

图丨同行评审后AI能够协助的方面(来源:arXiv)

对于 Meta-Reviewer 来说,AI 能够帮助他自动分类和归纳来自不同审稿人的评论,识别论文的优劣点及改进意见,以及可能未充分覆盖的方面。同时辅助撰写清晰而证据充分的 Meta-Review,或是校准分数等,以确保决策的合理性。

当然,在使用这些模型时需要保持谨慎,以免完全代替评审本身的判断。

Meta-Review 完成后,PC(项目主席)需依据 Meta-Review、初始评审、作者回复及论文本身做出最终决策。

NLP 技术在这一阶段主要用于提升决策的一致性与公正性,比如通过自动工具辅助对边缘论文的排序,以及识别 Meta-Reviewer 与初始评审意见的重大分歧,预防潜在的偏见或不道德行为。

打开网易新闻 查看精彩图片

图丨相关论文(来源:arXiv)

此外,NLP 也能辅助编辑决策,根据会议特定期望对论文进行针对性排序,并在最佳论文奖的提名过程中,通过文本分析增强提名的全面性和公正性。

打开网易新闻 查看精彩图片

图丨相关论文(来源:PNAS)

论文修订阶段,NLP 技术则可以辅助作者根据反馈有效修改文稿,同时也帮助审稿人、Meta-Reviewer 和 PC 分析修订是否恰当,是否解决了前期提出的问题。自动分析修订内容的新颖性、相关性和质量,以确保修订的有效性和可靠性。

最后,在同行评审后分析阶段,NLP 也为深入挖掘评审数据提供了一种新的途径,比如识别评审趋势、偏见,评估评审标准的有效性,乃至预测论文的潜在影响力等。

规范使用 AI 进行同行评审

总的来说,目前AI 工具可以在单个任务的层面上给同行评审提供帮助,提高同行评审的效率和效果。但要注意的是,这些工具也可能引入一些新的风险与偏见。

在理想状况下,NLP 能通过智能化辅助减少人为偏见,但如果设计不当,AI 工具自身可能成为偏见的来源,比如在犯罪预测系统中发现的系统性偏差案例,就表现出技术偏见的潜在危害。

打开网易新闻 查看精彩图片

图丨相关文章(来源:PROPUBLICA)

鉴于此,团队指出,在发展 NLP 辅助同行评审的同时,必须细致考量其潜在偏见类型,实施持续监控和量化评估,以确保技术进步不致放大现有问题。

例如,NLP 模型若过分学习已发表文献作者的语言风格,可能导致对新人或少数群体的排斥,进而加剧分配不公。

团队认为,应该清晰公开 NLP 辅助工具的使用细节、功能限制及数据隐私策略,同时探索如何在保护隐私的同时保持同行评审的匿名性,避免模型被滥用,或是以逆向工程推断审稿人身份。

此外,使用 AI 工具也面临责任归属问题,当 NLP 辅助系统发生错误时,责任在于开发者、使用者还是会议组织者?

随着自动文本生成技术的进步,如何确保审稿人不滥用技术而逃避责任,成为亟待解决的问题。

隐私保护也是不容忽视的环节,研究团队呼吁采用差异隐私、匿名化等技术,以及明确的法律条款,防止评审数据泄露导致的个人隐私侵犯。

总之,虽然用 AI 辅助同行评审这一应用潜力巨大,但其应用过程中也需要严格的伦理考量与风险管理。

随着技术的发展与实践的深入,学界需要持续进行监测并及时调整策略,以确保科技服务于提升学术评价的公正性与效率,而非成为新的困扰。

参考资料:

[1]. https://arxiv.org/abs/2405.06563

本文内容不代表平台立场,不构成任何投资意见和建议,以个人官网/官方/公司公告为准。