2026年5月9日,柳叶刀发表了一篇“CORRESPONDENCE“,对250万生物医学论文的参考文献进行审查发现:2023年,约每2828篇论文中有一篇论文包含虚假参考文献;到2025年,该比例上升至每458篇论文中有一篇;2026年初收录的论文中,每277篇论文中就有一篇包含至少一条假文献。
原文链接:https://www.thelancet.com/journals/lancet/article/PIIS0140-6736(26)00603-3/fulltext
既往研究估计,生物医学领域大语言模型(LLM)生成的参考文献中,30%至69%是虚构的。这些参考文献看起来格式正确,归属于真实的研究者,出版日期也很合理,导致同行评审难以察觉。
柳叶刀发表的这篇“CORRESPONDENCE“文章,纳入近3年250万篇生物医学论文,对参考文献进行了系统审查。
具体来讲,研究团队开发了一套自动化参考文献验证系统,扫描了2023年1月1日至2026年2月18日期间PubMed Central收录的文献:共计2,471,758篇论文和125,615,773条结构化参考文献。
研究者从中提取的参考文献,保留了具有PubMed 标识符(PMID)的文献。在1.256亿条参考文献中,9710万条(77%)带有PMID并通过验证,其余23%参考文献主要是网站、书籍和灰色文献,被排除在外。
对通过验证的参考文献,研究者从 PubMed 和 Crossref 获取标识符对应的文献,并将其与论文引用的文献进行对比。
研究者还会在以下数据库进行验证:PubMed、Crossref、OpenAlex以及Google Scholar。在所有数据库中均未找到的参考文献被归为“虚假参考文献”;若能找到文献但关联了错误的PMID,则归类为“错误引用”。
虚假参考文献的情况
在9710万条经过验证的参考文献中,识别出了4046条虚假参考文献,来源于2810篇论文:
2023年,大约每2828篇论文中就有1篇包含至少一条虚假参考文献
2025年,比例上升至每458篇中有1篇
2026年的前7周内(2月18日前),每277篇论文中就有1篇
2023年每万篇论文约有4条虚假参考文献,2025 年第四季度每万篇论文有51.3条,在2026年初达到了每万篇论文56.9条。虚假参考文献率增长了12倍以上。
图. 2023年1月至2026年2月期间,PubMed Central收录论文的虚假参考文献率
举个例子, 2025年一篇发表在开放获取肿瘤学期刊、关于输尿管回肠吻合技术的论文中,在30条经验证的参考文献中,有18条(60%)是虚假参考文献,每一条都针对该论文主题量身定制,发表年份显示为2023年或2024年。
研究还发现了“论文工厂”活动的迹象。有两位作者在2025年某一外科期刊的11篇论文中署名,这些论文包含15条虚假参考文献,涵盖CRISPR诊断、AI引导的纳米疫苗和肠道微生物组标志物。
大多数论文(91%,n=2564)仅包含一两条虚假参考文献;246篇包含三条或以上。综述类文章的虚假参考文献率显著高于其他类型论文(16.7/10000篇 vs 10.6/10000篇;p<0.0001)。
2024年年中出现的急剧转折,与LLM普及后的预期相吻合。LLM于2022年底和2023年开始广泛可用;考虑到100-200天的投稿至出版周期,使用LLM辅助的论文预计在2024年年中起出现在PubMed Central中。
这些虚假参考文献并没有明显缺陷:与论文主题相关、格式正确、归属于真实的研究人员,出版日期看起来合理。
本研究建议采取四项行动:
出版商应在同行评审开始前,将自动化参考文献核查集成到投稿工作流程中;
文献收录系统应在文章记录中添加完整元数据,以便下游用户评估参考文献的可靠性。
出版商应追溯筛查现有出版物,并在虚假参考文献危及论文结论时发布更正或撤稿。
在主要的科研诚信数据库中,“伪造参考文献”目前还不是一个独立的分类;建立这一分类将有助于进行系统性的追踪和问责。
参考文献:Lancet, 407, 1779-1781. doi:10.1016/S0140-6736(26)00603-3
热门跟贴