一直以来,随机对照试验(RCT)是评价药物安全性和有效性的金标准。但其有不能充分代表目标人群(老人、小孩、孕妇)、难以在特定疾病领域(罕见病)实施、需要高昂时间和金钱成本(10年,10亿美金)的局限性。
「随机对照试验的数据可以支持药监局做决定,但不能支持卫健委、医保局的决策。」5月14日,在第三届国际医疗质量与安全大会的分论坛「真实世界研究的数据质量控制」上,中山大学药学院医药经济研究所所长宣建伟做了题为《从真实世界数据到真实世界证据》的主题发言。
那么卫健委、医保局的决策要基于什么来做?只能做真实世界的、大人群的研究。也就是说,真实世界研究(RWS/RWR)可以回答政策决策的准确性。其指的是针对预设临床问题,在真实世界环境下收集真实世界数据(RWD)、获得真实世界证据(RWE)的研究过程。
宣建伟认为,真实世界研究与随机对照试验应互为补充。而对于医院来说,做好真实世界研究,有助于医院成本效益控制。
如果每个手术能降低一天的住院时间,几十个手术也许就能空出足够的时间,纳入更多的病人。
在现有的DRG/DIP支付方式改革情况下,仅有的一些病床能够最大限度地工作。这就是真实世界研究在绩效角度对医院的贡献。
以下是他的发言实录(有精简):
为什么卫健委和医保局的决策,需要真实世界研究?
大家都知道随机对照实验(RCT)是临床研究的金标准。那为什么还要真实世界研究呢?
原因是随机对照试验是在很大人群中有意识地选择病人进行临床试验,在挑选的过程中,筛选掉了孕妇、老人、孩子甚至是原本想治疗的病情严重的患者。
为什么要这样做呢?因为怕患者死亡,导致临床无法顺利开展。
随机对照试验能最大程度地保护研究的严谨性,但是却丢掉了研究人群的可适性。
举个例子,随机对照试验的数据能够告诉药监局A药和B药哪个更好,但是这个数据不能用来支持卫健委和医保局的决策。因为二者的决策是包括妇女、儿童、老人、重病患者的,他们同样需要医保支付。
这就带来一个问题,药监局批准的新药,是根据筛选后的患者做的临床试验,但实际上,医保局要管更广泛的病人。那医保局的决策要基于什么来做?只能做真实世界的、大人群的研究。也就是说,真实世界研究可以回答政策决策的准确性。
真实世界研究和随机对照试验是相辅相成的关系,他们之间不可互相替代。
随机对照试验回答的是:「是否该采用此技术?」
真实世界研究回答的是:「该如何使用该技术?是否可以用在被随机对照试验排除的亚组人群中?即便在人群中未达到预期疗效,支付价格是否合理?」
如何从真实世界数据到真实世界证据?
数据变成证据,形象化地说,是「烹调」的概念。打个比方,去超市买原材料,而后通过严谨的烹饪过程变成美食。
真实世界数据通过真实世界研究最终形成真实世界证据。如果方法不够严谨,不仅无法支持决策,反而还会误导决策。
那么如何做好真实世界研究呢?
首先,数据必须是可靠、准确、相关、标准化、少缺失的。如果倾向性地选择了一些数据,结果肯定是偏倚的。就像是要做肉丸子,但却拿了鱼的材料,最后只能做出鱼丸,而不是肉丸子。
第二,研究方法、操作过程、研究设计要合理严谨,要有多维度的解释。最后才能通过控制这些偏倚和混杂因素,做出真实世界的证据。
做一个真实世界的研究,基本有五个步骤:
1. 确立研究问题,用PICOTS原则(即Participants研究对象,Intervention干预,Control对照,Outcome结局,Timing时间,Settings场所)弄清问题本质;
2. 探索数据库或数据框架体系,确定数据可用;
3. 建立研究方案,确立实施细则;
4. 获取数据,生成研究数据集,严格把控质量;
5. 分析数据,报告结果,运用统计方法,遵从预设方案。
医院如何使用真实世界数据研究?
医院最大的优势是接触到的数据,如病案首页、电子病历、手术麻醉系统、收费系统、科室自建的数据平台等等。
这些就是我讲到的超市里的「原材料」。医院首先要明确研究的目的,然后再去找哪些原材料(即数据)可以使用,最后进行严谨分析。
医院如何用病案数据或电子病历进行真实世界研究?
举个例子,有一个超声刀集成系统,相比于传统超声刀,可以减少术中止血材料的使用,减少术后住院时间等优势。
医院想知道这个超声刀在医院的真实情况,到底有没有达到预期效果。这就是开展真实世界研究的目的。
用PICOTS原则,找到对应的数据。
1. P(Participants研究对象)-胃癌远端切除患者
2. I(Intervention干预)-超声高频外科集成系统
3. C(Intervention干预)-传统超声技术
4. O(Outcome结局)-治疗获益
5. T(Timing时间)/S(Settings场所)-是真实世界医疗场景中回顾性的研究
如果看不到这些PICOTS,你就要问自己应该在哪里找到它们。
最好可以在几个医院同时做研究,因为一个医院的样本量可能比较少。通常我们选择一年或者一年半左右的数据。
患者有极限特征,也有治疗终点。
我们如何评量治疗终点呢?以印证医疗效果呢?
这包括止血夹的使用数量、术中出血量、手术时间、住院时间等等。
这需要到医院把数据对接起来,高质量地筛选入组,进行数据填写。这都是需要很准确的结构化数据,才能做研究。
让我们来看一下结果:最终找到了传统组47例,高频组40例。他们的P值几乎没什么差异。
超声高频外科集成系统是否真的能做到止血的效果?
结果显示,有两个数据具有统计学意义:高频组止血夹使用个数,平均比传统组少4个,高频组术中出血量显著低于传统组。
住院天数和手术时间也有差异,但是不具备统计学意义。这可能是数据量的问题,当达到80例的时候,可能就可以看出统计学差异了。
通过这个研究,我们可以看到超声高频外科集成系统确实有更好的止血效果,能降低出血量,同时可能降低住院时间。
如果每个手术能降低一天的住院时间,几十个手术也许就能空出足够的时间,纳入更多的病人。
在现有的DRG/DIP支付情况下,仅有的一些病床能够最大限度地工作。这就是这个研究在绩效角度对医院的贡献。
所以医院在做卫生经济学评估的时候,要把真实世界研究纳入进来。
医疗器械价值评估的特点和注意事项
医疗器械跟药品不一样,需要关心更多。
第一,医疗器械的创新速度比药品快很多,它的增量创新会很多。
第二,医疗器械的学习曲线复杂,患者相关结果通常取决于操作者的培训和经验。药用在大部分人身上的效果是可以预测的,但医疗器械不一样,高水平医生可能达到90%的效率水平,差一点的或者没有掌握的,可能有效率只有70%。
第三,医护交互的作用,跟药也有差异。药不需要别人的帮忙就能吃下去,医疗器械通常需要医护工作者按照相关操作程序实施诊疗操作后才有效果。
第四,研究证据,医疗器械的研究证据的量和度都不如药品。因为医疗器械的特性,传统上对于医疗器械的要求许可低于药物,医疗器械的临床证据库中易出现选择偏倚和混杂问题的数据,很少或完全没有随机对照实验(RCT),缺少长期的临床数据。
基于上述问题,我们要构建多个视角下临床结果和成本收益的模型。需要评估医疗器械到底是治疗型医疗器械,还是工具型医疗器械。
工具型的医疗器械,比如吻合器、超声刀,对短期临床结果影响明显,主要影响医院的成本和患者的短期成本。
而治疗型的医疗器械,比如支架、人工膝关节、人工髋关节,影响中长期临床结果,对医保基金可能产生滞后影响。
所以二者的评估角度完全不同,在设计研究的时候,也必须更有针对性。
卫生经济学与真实世界研究的关系
卫生经济学是「投入产出比」和「临床干预手段的有效性、安全性」的叠加评估。
这就像一个天平,左手托着健康产出,右手托着成本,评估哪个更值得支付?我们社会能不能负担得起?
但很多情况下,我们往往被带跑了方向,没有看到真实世界的数据。
一个形象的比喻,治疗疾病只能看到治疗的费用,包括药费、住院费、医疗管理费等。
这只是冰山一角。更大的冰山,还有不良反应的费用、并发症的费用、复发治疗的费用、医疗资源占用、误工等等。
但这些数据在传统评估中是看不到的,因为没有衡量。
所以真实世界研究有助于卫生经济学评估产生高质量的数据。
做卫生经济学评估,往往建好模型后,我很喜欢说的一句话是「garbage in,garbage out」(编者注:意指无用输入、无用输出,输出质量是由输入质量决定的,是计算机科学和数学中的常见概念)。
所以数据原料要准确。做真实世界研究也一样,必须考虑研究严谨性和准确性。
真实世界研究难在哪?怎么办?
真实世界研究比随机对照试验更困难。原因是什么?因为里面有太多偏倚和混杂因素,没办法控制。
举个例子,随机对照试验可以列两个组,放入年龄相仿、性别相仿的人群。但在真实世界里必须要对数据纠正,否则得到的可能不是证据,而是误导性证据。
什么是偏倚?这里有两种情况,选择性偏倚和信息的偏倚。
什么叫选择性偏倚?只想研究一个特定人群,但该人群和外部人群差异很大,研究结果不一定能推到大众。
信息的偏倚,指的是内部信息出了差错,不是真正评估某干预手段达成的结果,降低了研究内部的真实性。
所以在真实世界研究中,最重要的问题是先问自己「选择性偏倚在哪?信息偏倚在哪?」
如果有偏倚,就很难发表高质量文章了。
混杂因素也要关注。控制混杂因素,要在设计阶段就制定恰当的虚悬和排除标准(限制)、按主要的混杂因子匹配(匹配)。分析阶段要分层分析、多元模型、倾向性评分因素。
举个例子,研究的是酒精摄入量和肺癌的关系。研究方式是找到「喝酒的人群」和「不喝酒的人群」,去看他们结局的肺癌量。听起来很严谨。但其实忘掉了一个混杂因素——吸烟。
打个比方,吸烟的人在喝酒的人里很多,在不喝酒的人中很少(或者反之)。吸烟会导致肺癌是确定结果。那么吸烟的存在,就影响了结果考量。因此在设计研究时,应当把吸烟的情况考虑到,否则研究结果是错误的。
吸烟就是这个研究中的混杂因素。
判断混杂因素必须是「所研究疾病的独立危险因子」,必须是「与研究因素(暴露因素)有关」(比如吸烟是肺癌的独立因素,也是暴露因素)。
但不能是「研究因素与研究疾病因果链上的中间变量」(比如判断浏览屏幕时间长,可能导致更多心血管疾病,但跟体育锻炼时间长没有必然的相关性)。
(注:本文图片均来自宣建伟教授PPT )
健康界出品,未经授权禁止转载
撰文|和星星
热门跟贴