点击蓝字关注,多点在看防失联
个人观点,不代表任何组织与单位
我们经常会看到一些基础研究的可重复性有问题,或者某张图有造假嫌疑等等。学术打假专家Elisabeth Bik近年来也是因为“眼尖”找出大量基础研究中可疑的图片而出名。
各种基础研究造假也让学术界注意到了“论文工厂”问题,像第三方“代写”论文,卖给有发表“刚需”的研究人员、医生等。但学术造假与论文工厂绝不是仅限于基础研究,2023年7月18日《自然》上的一篇新闻分析就聚焦在了临床试验造假或不可靠的问题:
当讨论某个药物是否能治某个疾病时,随机临床试验可以说是金字招牌,这也体现在循证医学的证据可靠性标准上:
RCT——randomized controlled trials,随机临床试验是单项证据中可靠性最高的,而更高层级的证据,如综合分析等,也是建立在对多项RCT的分析之上。
遗憾的是,不可靠的RCT之普遍可能超出很多人的想象。而当RCT本身不可靠之后,循证医学又如何可行呢?
新冠疫情里一些“神药”也会打着“RCT证明有效”的旗号。《自然》的新闻报道举了伊维菌素的例子,很多反疫苗阴谋论者极度推崇用伊维菌素治疗新冠,还会列举泰国做了什么临床试验等例子。可是那些号称伊维菌素有效的研究存在很多问题,一些还被撤稿。Cochrane的一份综述指出伊维菌素的新冠随机临床试验里超过40%不可靠。
RCT不可靠的问题不是新冠后才出现,更不局限于新冠。《自然》的报道提到一位麻醉学专家John Carlisle,是《麻醉学》期刊主编。利用“职务之便”,Carlisle向投稿作者索要相关RCT的原始数据(具体受试者个人信息做匿名处理以保护隐私)。
2017年起三年内,他索要到了150多项RCT研究的原始数据,再对比论文中作者们的分析,发现44%存在问题:统计分析有问题,计算错误,数据重复等等。26%的问题严重到了根本无法确定结论是否可靠。对于这些问题严重的RCT,Carlisle称之为“僵尸试验”,因为它们表面上看着像正经研究,实际却根本无法提供靠谱信息,甚至有可能提供虚假信息!
要找出“僵尸”极度依赖对原始数据的仔细检验,当作者没有提供RCT原始数据时,Carlisle只能找到2%的研究有问题,1%可以判断为“僵尸”(有严重问题导致结论不可靠)。
但不是所有期刊都会要求提供原始数据,即使提供原始数据,绝大部分期刊也不可能真的去仔细核对——这项工作实在太耗费精力了。
“僵尸研究”顺利发表的机会并不小。像Carlisle就发现自己作为主编拒了的那些“僵尸研究”,如今大部分都发表在其它期刊之上,有的还更改过数据。
如前文所言,随机临床试验的结果是我们非常看重的医学信息,当20-30%的RCT结果不可靠时,很有可能夸大甚至虚构一些药物或治疗方案的有效性。
为什么说是夸大而不是低估有效性,因为论文发表本身有对阳性结果的倾向性,很多时候试验结果是有效才有被发表的机会。就算是造假,也只有造假成有效的才能完成发论文的任务。
循证医学的证据层级上,基于多个临床试验的综合分析的结论会比单个临床试验更可靠。可万一多个临床试验里有好几个不靠谱呢?
《自然》文章里举了氨甲环酸的例子。这个止血药用于产后出血的治疗,产后出血也是分娩死亡的最主要原因。不幸的是,目前看来孕妇健康领域是临床试验可靠性低的重灾区。2021年一项基于36个RCT的综合分析发现剖腹产后立刻用氨甲环酸预防产后大出血的有效性高达60%。集中了36个RCT后,该分析里的受试者人数高达一万人。多个临床试验,人数众多,有效性显著,一切看上去都很好,不是吗?
但今年美国一项受试者多达1.1万人的大型临床试验却显示氨甲环酸预防产后大出血没有显著作用。为什么出现如此打脸的反差?
其实之前的36个RCT里,只有一个是法国多中心的研究,有超过4000名受试者,有效性只有16%。而剩下35个单中心的小研究,加在一起有效性高达93%。正是这些可能并不可靠的单中心小研究,驱动了之前氨甲环酸预防产后大出血惊人的有效性。
这很可能也是“虚假”随机临床试验里一个较为普遍的现象:大家参考某个研究结果去编故事。
从发表论文的角度很容易理解为什么会出现这个现象。第一,阳性结果更容易发表,因此你必须“编”一个结果是阳性的临床试验。第二,你也不能编的太离谱,比如说吃了某某维生素长生不老,这很容易引来期刊编辑以及审稿人的高度注意,导致露馅。最好的办法就是看看别人发表了什么阳性结果的临床试验,按照类似的结果去编故事。这样有过往相似结果的护驾,更容易被期刊认可。
可是当大量“编故事”型临床试验发表后,就会影响我们的科学判断。像氨甲环酸预防产后大出血,本来就一个研究,有效性微弱未必靠谱,一堆研究跟着讲故事,造成了有效性被反复验证且非常高的假象。
即便没有严重到把实际无效的药物过度整容到有效的程度,严格按照某一项研究去复制黏贴,结果也会放大样本数量,让原本因样本量小,可靠性不高的研究,看上去可靠性极高。
我们选择有效的医疗方案、药物的重要基础正是随机临床试验的结果,或是基于多个RCT结果的综合分析。当这些基础由于虚假的试验而变得空洞时,我们也很有可能因此选择错误的治疗方案、药物,进而受害。
值得注意的是,和论文工厂一样,中国也是可疑RCT影响严重的地区之一——前述氨甲环酸预防产后大出血有效的各种小规模单中心研究,不少就出自中国(此外,埃及、印度、伊朗等地也是虚假RCT盛行)。
回顾过去几年国内的新冠药物研发,能看到很多可疑的RCT。一个比较有名的是普克鲁胺,这个药当初号称在巴西的临床试验里无论轻症、重症都高度有效。但在试验里对照组病死率接近50%,高得离谱。所幸这个药没有上市,除了骗了投资人,危害还算“可防可控”。但另一些临床试验很可疑的新冠药物就没那么小打小闹了。像连花清瘟也曾有多位院士署名的临床试验显示有效,发表于《植物医学》上。
如果说中医好歹属于大家都懂的,那么阿兹夫定的上市历史则更是不靠谱研究的集大成者。该药上市时宣传最多的是一项基于31人的临床试验,显示阿兹夫定无论轻重症都有效。然后就是至今未正式发表的三期临床试验显示加速核酸转阴等等,每项三期临床试验招募人数都只有300多人,能做出有效性不可思议。再后来则是一些号称在实践中证明其有效的真实世界研究——尽管这些采用同一批原始数据的研究存在各种矛盾的数据点()。
选择相信这些可疑的临床研究,忽视其中的疑点,甚至消除怀疑的声音,导致在中国第一波疫情里使用最广泛的新冠药物,是一个没有可信数据、在原理上就不可能有效的“伪抗病毒药”。可能有上百万人,不仅没有接受有效的抗病毒治疗,还受到毫无必要的副作用威胁。
这也是“僵尸试验”比基础研究论文造假更令人担忧的地方。论文工厂批发制造基础论文,影响的主要是学术领域内部。但当编故事编到临床试验特别是随机临床试验时(有些也涉及论文工厂),那离谋财害命就真的万分接近了。
我们需要通过打击论文工厂、改变不合理的学术评价体系,在源头上减少“僵尸试验”的出现。但在可预见的未来,研究人员发表论文的压力不会消失,学术期刊也非常有动力帮助研究人员发表论文——这对期刊来说能增加影响力,也有直接的经济利益,而“成功”的临床试验背后还可能有更大的经济/资本驱动力。
因此,不靠谱甚至是弄虚作假的临床试验以及相关论文不会消失。真正关键的是如何不让这些可疑的临床试验影响扩散,不让具体的医学实践建立在不靠谱的“僵尸数据”上。这就更需要我们能有更多科学、理性的思辨,需要医学专家、药品监管机构能够表现出本应具备的独立性,成为公众与毒药之间的万里长城。
当面对明显证据不足甚至有充分证据显示无效有害的药物,如果院士专家以及监管机构是帮着诵读资方的新闻稿,那么不仅将扩大虚假临床试验的危害,还会成为催生此类“僵尸”的土壤。
订阅关注防失联
也别忘了备用号
参考资料
https://www.nature.com/articles/d41586-023-02299-w
原创不易 赞赏随缘
热门跟贴