打开网易新闻 查看精彩图片

2026年2月,学术监督网站Retraction Watch报道了《国际肥胖杂志》撤回一篇GLP-1减肥药研究的消息。期刊统计编辑发现,这篇声称联合用药可额外减重4%的论文,其核心结论在统计学上无法成立。撤稿本身并不罕见,但这一事件指向了一个远比单篇论文更严峻的问题。2025年9月,Retraction Watch的另一篇独家调查揭示,FDA不良事件报告系统(FAERS)这一公共数据库正被大规模滥用:基于FAERS的药物安全性论文从2021年的约100篇激增至2024年的600篇,其中大量论文缺乏真实的研究假说,涉嫌p值操纵,被研究者称为“没有研究问题”的研究。这股灌水潮已迫使至少两本期刊出台限制措施,但已发表的论文几乎无法被撤回,因为它们虽然无用,但不是假的。

撰文 | 木木

2026年2月23日,学术监督网站Retraction Watch报道了一则引人关注的撤稿事件:《国际肥胖杂志》(International Journal of Obesity,简称IJO)撤回了一篇关于GLP-1类减肥药联合用药效果的研究论文。

GLP-1受体激动剂是当下全球医药市场最炙手可热的药物类别。以Ozempic、Wegovy为代表的GLP-1类药物,以及Mounjaro等GIP/GLP-1双受体激动剂,正在重塑肥胖症和2型糖尿病的治疗格局,市场规模已达数百亿美元。围绕这一药物类别的学术研究也在急速膨胀,从联合用药方案到长期安全性评估,大量论文涌向各类期刊。

被撤回的这篇论文正是其中之一。它于2024年5月发表,是一项回顾性队列研究,声称在GLP-1药物基础上加用另一种减肥药安非他酮/纳曲酮(bupropion/naltrexone),可以带来额外约4%的体重下降。这一结论极具临床吸引力。

撤稿的起因是期刊统计编辑David Allison的发现。Allison是贝勒医学院(Baylor College of Medicine)营养学主任、儿童营养研究中心负责人,过去十年一直专注于纠正营养学文献中的统计错误。他在审阅这篇论文后,发现其统计分析的逻辑从根本上无法支撑结论。

“我完全无法理解他们到底做了什么分析,”Allison告诉Retraction Watch,“更让我困惑的是,我无法理解他们所做的分析怎么可能得出他们所宣称的那些结论。所以我有点挠头。”他让自己带的几位学生再次审阅这篇论文,学生们也无法理解其分析方法。在获得作者配合提供的原始数据后,Allison团队确认论文的核心结果无法被复现。

2025年12月,IJO在线发表了这篇论文的撤稿声明。出版方施普林格(Springer)确认,撤稿源于“期刊编委成员对论文结论有效性提出的质疑”。Springer生物医学出版总监Maria Hodges在邮件中说,调查过程包括“由期刊的一位统计编辑及其研究团队对原始数据的评估、与文章作者的沟通、独立专家的咨询,以及与主编和Springer Nature研究诚信团队的协商”。

打开网易新闻 查看精彩图片

IJO发表的撤稿声明 | 图源:IJO

但是所有作者都不同意撤稿。

第一作者、不列颠哥伦比亚大学(University of British Columbia)的临床科学家Nadia Khan表示,她和同事们认为“除非能弄清楚问题到底出在哪,并确认这些问题足够严重,否则不接受撤稿”。Khan拒绝回答进一步的问题,但表示作者团队正在准备一封辩护信,将提交给期刊。

Allison也表示,考虑到各期刊在处理报告错误、纠正或撤回文章方面存在“巨大的差异”,他认为IJO的做法值得肯定。他曾经向另一本期刊提出的论文质疑,用了三年多才最终被撤回。“我很高兴IJO的编辑们在认真对待这件事,我认为更多的期刊编辑应该效仿他们的做法。”

这还是一个体面的结局:一位尽职的统计编辑发现了问题,期刊进行了调查,论文被撤回。至少在这一案例中,学术界的纠错机制最终发挥了作用。

但如果,问题不是一篇论文,而是600篇呢?

600篇论文,同一个数据库

2021年,全球发表了大约100篇基于同一个数据库的药物安全性研究。到2024年,这个数字变成了600篇。而2025年,它还在继续增长。

这个数据库叫FAERS,全称是FDA不良事件报告系统(FDA Adverse Events Reporting System)。它由美国食品药品监督管理局(FDA)维护,收录了2004年以来数千万条药品不良事件相关记录,数据来源是医疗专业人员、患者和消费者的自愿上报。

FAERS本身是一个有实际价值的工具。法国格勒诺布尔-阿尔卑斯大学医院(Grenoble Alpes University Hospital)的药理学家Charles Khouri在接受Retraction Watch采访时估计,药品上市后相当大比例的说明书修订来自FAERS这类药物警戒数据库,“大约60%到70%”。

他举了一个正面例子:一项基于FAERS的“不成比例分析”(disproportionality analysis)曾发现糖尿病药物吡格列酮(pioglitazone)可能增加膀胱癌风险。

所谓不成比例分析,简单说就是一种统计筛查方法,用于检测某种药物与某种不良事件的组合在数据库中出现的频率是否异常偏高。如果偏高,就构成一个值得进一步研究的“信号”。在吡格列酮的案例中,后续研究证实了这一信号,并最终促成了药品标签的修改。

从这个角度看,FAERS是一座金矿。问题是,当越来越多的人意识到这座金矿是免费的、开放的,而且可以用来批量生产论文的时候,事情开始变质。

“你可以想象,在一个包含数百万种药物、数百万种不良事件的大型数据库中,你可以进行无限次数的统计分析,”Khouri说。

他的措辞很温和,但含义很明确:当你拥有一个足够大的数据库和足够多的统计检验时,你总能“发现”点什么。这在统计学上有一个专门的名字,叫p-hacking(p值操纵),即通过反复试验不同的分析方法和变量组合,直到凑出一个“有统计学显著性”的结果。

更关键的是,FAERS是一个自愿报告系统。实际发生的不良事件中,究竟有多大比例被上报到数据库中,没有人知道。“这意味着数据本身就是不完整的,”Khouri补充说。而且,药物的新颖程度和媒体关注度会显著影响人们上报不良事件的意愿。一种被全球媒体反复报道的“明星药物”(比如GLP-1类减肥药),其不良事件报告量可能远高于一种同样广泛使用但鲜有新闻价值的旧药。这种报告偏倚(reporting bias)会严重扭曲统计结果。

据Retraction Watch报道,从2019年到2022年,药物安全领域的权威期刊《药物安全专家观点》(Expert Opinion on Drug Safety)每年只发表个位数到低两位数的FAERS不成比例分析论文。但从2023年开始,数字急剧攀升。2024年,该期刊发表了174篇这类论文,占其全年发表论文总数的近60%,发表量相当于2021年全年论文的总和。

打开网易新闻 查看精彩图片

对 PubMed 中药物不良事件研究的文献计量分析显示,FAERS 占近期研究数量激增的很大一部分 | 图源: C. Khouri et al. 2025

另一本期刊《药理学前沿》(Frontiers in Pharmacology)的情况类似:2023年约30篇,2024年超过120篇。

这样陡增的曲线不是“研究热情的自然增长”可以解释的。

“没有研究问题”

Khouri和法国格勒诺布尔-阿尔卑斯大学的计算机科学家Cyril Labbé、意大利博洛尼亚大学(University of Bologna)的Emanuel Raschi等人合作,对这批涌入的论文进行了系统分析。他们的发现刻画出了一种标准化的“灌水模板”。

这些论文往往同时使用多种统计方法来进行不成比例分析,但在正常的研究中,研究者通常只选用其中一种方法,因为“多种方法是冗余的”。大量论文还使用了一种标准化的流程图和一种叫“镜像图”(mirror plot)的可视化方式来展示用药至不良事件发生时间(time-to-onset)。“我们以前从来没见过这种图,”Khouri说,“把同样的信息在同一幅图中画两遍,提供的信息几乎没有价值。”

打开网易新闻 查看精彩图片

展示“发病时间”的镜像图是这类论文“灌水”一大共同特点 | 图源:Expert Opinion on Drug Safety

但Khouri指出的最核心的问题,比统计方法和图表格式更致命:

“没有研究问题。”

这些论文的典型模式是:选一种药物,扔进FAERS数据库,跑一遍不成比例分析,看看有什么“信号”跳出来,然后把结果写成一篇论文。这些论文往往并未清楚交代为什么要研究这种药物与这些不良事件的关联,也缺乏明确的临床假说支撑。而数据库是开放的,分析方法是现成的,流程可以无限复制。

有时候,这种“无问题研究”会产出荒谬的结果。Khouri举了一个例子:有论文“发现”西地那非(sildenafil)与肺动脉高压之间存在统计关联。但西地那非本身就是治疗肺动脉高压的药物(以Revatio为商品名在临床上使用)。一种药物在治疗某种疾病时被大量使用,FAERS数据库中自然就会有大量关于该药与该疾病的报告记录。

用不成比例分析“发现”两者之间的统计关联,就像“发现”雨伞和下雨天之间存在关联一样,在逻辑上毫无意义。

这些论文反映的问题,不仅是统计方法的滥用,更是研究者对所研究药物和疾病缺乏基本理解。

谁在“挖矿”

Khouri团队的分析还揭示了一个引人注目的地理分布特征。2019年至2025年间,发表在《药物安全专家观点》上的FAERS不成比例分析论文中,近80%的研究来自隶属中国机构的作者。“2021年之前,中国作者在这个领域完全缺席,”Khouri指出。

这种爆发式增长的速度和规模,暗示着更系统性的驱动力。个别研究者的产出量异常突出:某中国高校的一位研究者一人发表了27篇基于FAERS的不成比例分析,其中7篇发表在《药物安全专家观点》上;同校另一位研究者发表了6篇;另一所中国高校的研究者则至少发表了4篇。

这些作者均未回复Retraction Watch关于其研究领域和对FAERS数据库特别兴趣的采访请求。

英国萨里大学(University of Surrey)数据分析学讲师Matt Spick把这些研究放在了一个更大的框架里审视。Spick和同事在2025年7月发表的预印本研究中,识别出5个发表模式存在异常的公共数据库,这些异常可能指向论文工厂的介入,FAERS是其中之一。

Spick的研究建立在他此前对另一个公共数据库NHANES(美国国家健康与营养检查调查,National Health and Nutrition Examination Survey)的分析之上。那项研究显示,2021年至2024年间,基于NHANES的单关联研究论文出现了“快速增长”。这些论文和FAERS灌水论文有着惊人相似的模式。Spick和同事在2025年5月发表于PLOS Biology的论文中写道,虽然分析无法直接将增长归因于论文工厂,但它提供了一个“论文工厂可能使用的策略的案例研究”。

“一旦NHANES的数据上了线,作为一个论文工厂,你获取数据的速度就不再受限于你获取数据或复制图像的能力。你可以下载任意多的数据,”Spick告诉Retraction Watch。

FAERS、NHANES,以及其他开放的公共数据库,搭配日益成熟的生成式AI工具,正在催生一条低成本、高产出的论文流水线。数据是免费的,分析方法可以自动化,论文格式可以模板化。对于一个论文工厂来说,唯一的限制是想象力和投稿速度。

期刊的反击

面对这股灌水洪流,最先做出反应的是承受最大压力的期刊。

2024年7月底,《药物安全专家观点》的主编、多伦多大学精神病学和药理学教授Roger McIntyre与出版方Taylor & Francis决定,期刊将“不再接受未经邀请的、使用FAERS或类似自发报告数据库的不成比例分析研究”。期刊网站上现在注明:“此类研究只有在编辑团队特别邀请时才会被考虑。”

Taylor & Francis发言人在回复中解释了这一决定的背景:这类论文的投稿量“显著上升”,“即使我们投入了额外的资源来处理期刊的预审评估,这种情况仍然难以管理。”该发言人强调,“虽然不成比例分析可以对学术文献做出有益贡献,但此类论文可能包含方法论问题,这导致期刊的拒稿率超过了80%。”

一个讽刺的细节:主编McIntyre本人也署名了《药物安全专家观点》上的5篇FAERS论文,包括对GLP-1激动剂与自杀关联的分析。Retraction Watch两次向McIntyre的大学邮箱发出采访邀请,均由Taylor & Francis发言人代为回复。

《药理学前沿》的对策有所不同。2025年5月,Frontiers在旗下所有期刊统一引入了新政策,要求所有基于公共健康数据集的研究“必须提供独立的外部验证”。Frontiers研究诚信主管Elena Vicario表示,这项措施是对2024年7月起要求孟德尔随机化研究提交验证的政策的扩展。“问题不在于使用FAERS本身,”Vicario说,“而是冗余分析的风险,它们几乎不会带来新的科学理解。”

效果也是立竿见影。Vicario表示,“自2024年7月以来,《药理学前沿》已经拒绝了739篇FAERS投稿,只有9篇在2025年更新作者指南后获得发表。”

禁令和新规确实暂时遏制了潮水。但一个更棘手的问题是:如何处理已经发表的那些论文?

答案是,几乎无法处理。

截至Retraction Watch在2025年9月的报道,在其追踪到的这批基于FAERS的论文中,仅发现2篇已被撤回。其中一篇发表在BioMed Research International上,是在Wiley清理旗下Hindawi期刊中疑似论文工厂活动和操纵同行评审行为时被连带撤回的。《药物安全专家观点》 则因一篇FAERS论文在未经某位合著者同意的情况下署了他的名字而将其撤回。

对于剩下的绝大多数论文,Khouri承认束手无策:

“以造假为由撤回这些文章非常困难,因为没有造假。结果是无意义的,存在p值操纵和高假阳性风险。这些是无用的论文,但它们不是假的。”

他顿了顿,又补了一句:“大概吧。”

无用,不假,但有害

“无用,但不是假的”,这个判断精确地描述了这些论文的尴尬处境,同时也揭示了现有学术纠错机制的盲区。

现有的撤稿机制更擅长处理数据造假、图像篡改、剽窃等较为明确的学术不端行为。但FAERS灌水论文不属于这一类。它们使用的是真实的公共数据,运行的是真实的统计软件,输出的是格式完整的不成比例分析结果——报告比值比、比例报告比率、置信区间,一应俱全。只是这些统计指标没有意义,因为背后没有真实的研究假说。对于这类使用真实数据但研究问题薄弱、统计解释失当的论文,现有机制处理起来要困难得多。

这就像有人往学术文献的河流里倾倒了大量无毒但浑浊的泥沙。没有人中毒,但水变得不可饮用了。

Khouri明确指出了这种“无毒泥沙”造成的真实危害。

首先是对临床实践的干扰。“我们知道,当文献中传播安全警告时,患者会停药,”他说,“处方医生也会被这类结果影响,因为它们呈现出大量与药物相关的不良事件。”试想,如果一篇基于FAERS的论文声称某种GLP-1药物与自杀倾向之间存在“统计信号”,即使这个“发现”纯粹是报告偏倚和统计噪声的产物,它也可能导致医生的处方行为趋于保守,或者患者在恐慌中自行停药。在一个GLP-1药物正在帮助数以百万计的肥胖和糖尿病患者的时代,这种干扰的代价可能是真实的健康损失。

其次是对研究资源的浪费。Khouri指出,如果研究者启动新的临床试验来验证这些FAERS“信号”,将消耗大量本可用于真正有价值研究的资金和人力。

而在更深层,这场FAERS灌水潮暴露的不仅是一个数据库被滥用的问题,而是整个学术出版生态面对一种新型挑战时的系统性脆弱。

传统的学术不端行为(数据造假、图像篡改)虽然恶劣,但在性质上是明确的,现有的调查和撤稿机制可以应对。但当一个公共数据库被免费开放,分析流程被模板化,AI工具可以辅助撰写论文时,一条几乎零成本的“论文生产线”就出现了。这些产品在技术上不构成“学术造假”,但它们稀释了文献的信息密度,浪费了同行评审的注意力,污染了临床决策的信息环境。

“发表或出局”(publish or perish)的学术评价体系,为这条生产线提供了源源不断的需求端动力。在一个以论文数量评判学术成就的系统中,一篇“结果无意义但格式正确”的FAERS论文和一篇耗费数年心血的前瞻性临床研究,在某些评价指标上可能被赋予相近的权重。实际上,两者的研究成本和学术价值天差地别。

如果学术评价体系不改变,堵住FAERS这一个口子,灌水只会从另一个数据库涌出来。

一种新型的文献污染

让我们回到开头那篇被撤回的GLP-1论文。

它和典型的FAERS灌水论文不完全一样。它使用的数据不来自FAERS,它的作者在加拿大的大学和私人诊所工作,它的研究设计也不是那种无脑的不成比例分析。但在更本质的层面上,它与FAERS灌水论文共享着同一种病症:用回顾性数据挖掘出一个看似有临床意义的结论,而统计逻辑从根本上无法支撑这个结论。

Allison在发现问题后评论说,这篇论文涉及“治疗反应异质性”(treatment response heterogeneity)这个正在兴起的研究领域。“我确实认为这个领域需要提高水平,让人们理解什么是研究治疗反应异质性的合理和合规方法。”

被撤回的论文只是一篇。但在Allison的十年纠错经历中,他目睹了各期刊在面对问题论文时“巨大的差异”:有的迅速处理,有的拖延三年。如果对一篇来自知名大学、有作者积极辩护的论文进行撤稿需要半年多的调查,那么对大量“无用但未造假”的FAERS论文,学术界又能做什么?

Khouri在继续深入分析这些论文的共同特征,试图识别更多的模式。Spick则在研究论文工厂如何利用包括大语言模型在内的现代技术,从FAERS等开放数据库中批量抓取数据并自动化生成论文。

“要强制撤回这些论文中的很多篇会很困难,”Spick说,“然后它就变成了一个元科学家们的哲学问题:我们应该允许那些毫无意义的科学研究被发表吗?”

这个问题没有简单的答案。但在答案到来之前,大量这样的论文已经进入了学术文献,它们的“发现”正在搜索引擎和学术数据库中被检索、被引用、被误读。

它们不是假的。它们只是没有意义。

参考资料

[1] Gallegos, A. (2026, February 23). Journal retracts GLP-1 study after researcher questions central finding. Retraction Watch. https://retractionwatch.com/2026/02/23/glp-1-study-retracted-ozempic-saxenda-contrave-statistics/

[2] Marcus, A. (2025, September 16). Exclusive: Journal bans drug safety database papers as they flood the literature. Retraction Watch. https://retractionwatch.com/2025/09/16/exclusive-journal-bans-drug-safety-database-papers-as-they-flood-the-literature/

[3] International Journal of Obesity. https://www.nature.com/articles/s41366-025-02006-x

[4] Suchak, T., Spick, M. et al. (2025). Explosion of formulaic research articles, including inappropriate study designs and false discoveries, based on the NHANES US national health database. PLOS Biology. https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.3003152

[5] Spick, M. et al. (2025). Quantifying new threats to health and biomedical literature integrity from rapidly scaled publications and problematic research. medRxiv (preprint). https://www.medrxiv.org/content/10.1101/2025.07.07.25331008v2

[6] FDA. FAERS Public Dashboard. https://www.fda.gov/drugs/fdas-adverse-event-reporting-system-faers/fda-adverse-event-reporting-system-faers-public-dashboard

[7] Khouri, C. (2025). The Rising Misuse of Pharmacovigilance Reporting Systems: A Threat to Evidence-Based Medicine. Zenodo. https://doi.org/10.5281/zenodo.17116885

[8] Zhu, Z., Liu, M., Zhang, H., Zheng, H., & Li, J. (2025). Post-marketing safety concerns with abrocitinib: a real-world pharmacovigilance analysis of the FDA adverse event reporting system. Expert Opinion on Drug Safety, 24(5), 599–606. https://doi.org/10.1080/14740338.2024.2356020

注:本文封面图片来自版权图库,转载使用可能引发版权纠纷。

打开网易新闻 查看精彩图片

特 别 提 示

1. 进入『返朴』微信公众号底部菜单“精品专栏“,可查阅不同主题系列科普文章。

2.『返朴』提供按月检索文章功能。关注公众号,回复四位数组成的年份+月份,如“1903”,可获取2019年3月的文章索引,以此类推。

版权说明:欢迎个人转发,任何形式的媒体或机构未经授权,不得转载和摘编。转载授权请在「返朴」微信公众号内联系后台。