Science子刊：2024年的生物医学论文，至少有14%利用了AI辅助写作|学术|生物医学论文|科学

撰文丨王聪

编辑丨王多鱼

排版丨水成文

当世界发生变化时，人类书写的文字也会随之改变。像战争、传染病大流行这样的重大事件会影响文本语料库中的词频分布。科学学科的兴衰在学术著作中也可见一斑。那么，科学技术的进步是否也在我们的写作中留下了类似的痕迹呢？

2022 年 11 月，ChatGPT横空出世，这让人类的写作经历了前所未有的变革：首次出现了一款广泛可用的大语言模型（LLM），它能够在包括学术界在内的多个领域生成和修改具有媲美人类表现的文本。此后，许多研究人员在日常写作任务中融入了大语言模型（LLM），甚至与大语言模型共同撰写了论文。这也引发了人们对科研诚信、大语言模型生成内容中的事实错误以及论文工厂滥用大语言模型生成虚假论文的担忧。

基于这些担忧，有研究人员开始尝试追踪大语言模型辅助写作（LLM-assisted writing）在科学文本中留下的痕迹。

2025 年 7 月 2 日，德国图宾根大学的研究人员在 Science 子刊Science Advances上发表了题为： Delving into LLM-assisted writing in biomedical publications through excess vocabulary 的研究论文。

该研究显示，在 2024 年被 PubMed 收录的 150 万篇生物医学论文中，有大约 20 万篇论文（占比约1/7）的摘要存在大语言模型生成文本的迹象，这些论文摘要中包含了一些常见于大语言模型（LLM）生成文本中的标志性词汇，例如“unparalleled”（无与伦比的）和“invaluable”（无价的）。

值得一提的是，该论文曾于 2024 年 6 月在预印本平台发布，当时的评估显示，2024 年上半年的论文中，约 1/9 的论文摘要存在大语言模型生成文本的迹象，这表明了生物医学领域使用大语言模型辅助写作的现象正在加速。

ChatGPT等大语言模型（LLM）能够生成和修改文本，其表现甚至可与人类相媲美。但这些模型也存在着明显的局限性，可能会生成不准确的信息，并强化现有的偏见。然而，许多科学家在学术写作中使用它们。那么，在学术文献中，这种大语言模型的使用究竟有多普遍呢？

为了回答这个问题，研究团队在生物医学领域进行了探索，他们提出了一种无偏见的大规模方法：首先分析了 2010-2024 年之间 PubMed 收录的超过 1500 万篇生物医学论文的摘要中的词汇变化，并展示了大语言模型的出现如何导致某些风格的词汇的频率突然增加。这种超额词汇分析表明，2024 年的生物医学论文摘要中，至少有13.5%是使用大语言模型处理过的。这一比例在不同学科、国家和期刊之间存在差异，在某些子语料库中甚至达到了 40%。这项研究表明，大语言模型对生物医学研究中的科学写作产生了前所未有的影响，其影响甚至超过了诸如 COVID-19 这样的重大世界事件。

此前已有许多研究团队尝试评估大语言模型（LLM）对学术写作的影响，但这颇具难度，因为大多数使用者不会披露这些做法。因此，通常的评估方法是训练模型来识别人类生成的文本和大语言模型生成的文本之间的差异，然后利用这些差异来评估论文。但目前尚不清楚这些训练出来的模型是究竟是如何区分这两种类型的文本的，而且训练数据集也不总是能代表大语言模型生成文本的最新趋势。

德国图宾根大学的数据科学家Dmitry Kobak受到新冠大流行期间“超额死亡率”相关研究的启发，提出了一种“超额词汇”的方法，来检索论文摘要中在 2022 年 11 月 ChatGPT 发布之后出现频率高于预期的词汇。

他们统计并分析了 2010-2024 年之间 PubMed 收录的超过 1500 万篇生物医学论文的摘要中的词汇变化，发现有 454 个词汇在 2024 年出现的频率远高于 2010 年以来的任何一年，而且，这些词汇大多是与研究内容无关的“风格”词，且多为动词和形容词。其中一些词很常见，比如“findings”（发现）、“crucial”（关键）和“potential”（潜在），而另一些则较为少见，包括“delves”（探究）和“showcasing”（展示）。2024 年下半年出现的超额词汇还包括“heighten”（提高）、“hinder”（阻碍），以及诸如“unparalleled”（无与伦比的）和“invaluable”（无价的）之类的最高级形容词。

科学术语的变化是随着时间推移而发生的——包括伴随重大事件而出现的显著变化，比如始于 2020 年的新冠疫情。2021 年新增了 190 个词汇，它们大多是与研究内容相关的名词，比如“口罩”（mask）。但自从 ChatGPT 等大语言模型流行以来所发生的词汇变化更为显著，且主要是词汇风格上变化的。

该研究还显示，论文写作中使用大语言模型辅助的比例，在不同学科、国家和期刊之间存在差异，例如，在中国、韩国等国家；在计算机和生物信息学等领域；以及 MDPI、Frontiers 系列期刊，超过五分之一的论文摘要使用了大语言模型辅助写作。

实际上，大语言模型辅助写作的比例可能比这篇论文中发现的还要高，今年 2 月份发表在预印本平台 arXiv 的一项研究显示，AI 生成文本中的一个标志性词汇“delves”（探究）在 2024 年底开始变得不那么常见了，这可能是因为许多论文作者知道这个词汇被作为 AI 生成文本的标志性词汇，于是在写作中删除了这些词汇。这意味着，随着写作者的不断适应和调整，评估 AI 对学术写作影响的变得越来越困难。

需要指出的是，在学术写作中使用 AI 并非是不合理的，利用 AI 进行文本润色或辅助翻译显然是合理的用途，但在缺乏监督的情况下，使用 AI 生成大篇幅的文本，则可能涉嫌科研诚信问题。

论文链接：

https://www.science.org/doi/10.1126/sciadv.adt3813