内容来自:“小白学统计”微信公众号,感谢作者授权。

医疗预测模型的评估通常涉及三个关键方面:区分度、校准度和临床实用性。区分度是衡量模型区分有事件和无事件个体的能力,而校准则评估预测风险与观察风险之间的一致性。理想的模型应同时展现出高水平的区分能力和校准度,以改善临床决策。

虽然评估模型的区分度和校准度是至关重要的,但当前的相关文献报道似乎并不乐观。一项由Wessler等人进行的研究显示,在796个预测模型中,仅有63%报告了区分能力的测量,而仅有36%包含校准评估指标。类似地,Carrick等人审查了62个验证模型,发现虽然98%报告了区分能力,但只有41.9%提供了校准信息。这突显了医疗预测模型综合评估中的显著差距。

区分度指标

灵敏度和特异度是评估区分能力的常用指标;然而,在处理类分布不均衡数据集时(如阳性比例仅占10%),它们往往不够充分。即便灵敏度特异度较高,模型的实际效用也并不能得到保证。例如,如下表所示(阳性率为5%,典型的非均衡数据),灵敏度和特异度分别为80%和96%。然而,阳性预测值(PPV)仅为50%,这表明在采用模型预测的100个阳性个体中,实际只有50个是真正阳性。

此外,灵敏度和特异度可能会因决策阈值的不同而有所变化。例如,在 ,PCOS阳性率为10.45%,如果将决策阈值设定为50%时,灵敏度和特异度分别为0.34和0.98。然而,当阈值调整为10%时,灵敏度和特异度分别变化为0.76和0.84。在事件发生率较低的情况下,阈值为0.5通常导致灵敏度较低,但这并不一定意味着性能差。从这个角度看,综合考虑了所有阈值性能的ROC曲线下面积(AUC)在实际应用中更受青睐。

尽管AUC(也称为c统计量)被广泛使用,但它也存在一些局限性,特别是在非均衡数据集中。例如,我们曾对一份数据建模,在这份数据中,共42个阳性事件和312个非阳性事件,我们发现如果将所有对象预测为非阳性事件,会产生0.885的AUC,这错误地暗示其表现良好。这强调了仅依靠AUC可能导致误导性结论的潜在风险

因此,虽然一个预测模型可能表现出高灵敏度、特异度和AUC,但这些指标单独使用并不能保证模型的良好表现。有一些综合指标可以考虑:例如,F1分数结合了灵敏度和阳性预测值,部分弥补了灵敏度的局限性。

然而,由于F1分数仅侧重阳性事件,它仍可能引入偏差。 例如,如下表所示,较高的灵敏度(0.92)和阳性预测值(0.99)产生了高达0.95的F1分数,而特异度仍然极低,仅为0.11。 在这种情况下,Matthews Correlation Coefficient(MCC)提供了更全面和更平衡的模型性能评估。

因此,在评估不平衡数据的区分能力时,我们不建议仅依赖单一指标。相反,我们建议结合灵敏度、特异度、AUC、F1分数和MCC从多个角度评估模型性能。

校准指标

单靠区分能力不足以评估模型的预测性能。即使模型表现出高区分能力,如果预测值与实际值之间存在显著差异,其实际效用也会受到限制。从这个角度来看,校准评估变得不可或缺

校准通常使用校准图进行可视化,该图将预测概率分为若干个箱(通常为10个,但也可以是其它),并评估每个箱中预测概率与实际阳性事件比例之间的一致性。如下图所示,是将预测概率分了5个箱子,纵坐标是每个分类中的实际阳性率。下图可以看出二者一致性还不错

虽然Hosmer-Lemeshow检验可以作为校准图的拟合优度检验,但因其统计功效受样本量影响太大,且解释性差,因此并不建议使用。如果想使用的话,为了解决样本过大或过小带来的问题,已有文章提出了Hosmer-Lemeshow检验的改进版本。此外,也可以使用综合校准指数(ICI),该指标通过计算观察到的概率与预测概率之间的加权平均差异来量化二分结果的校准。

综合性能测量

一些性能测量指标结合了区分能力和校准成分,如解释变异(R²)和Brier score。R²是连续结果中最常用的测量指标,而R² Nagelkerke通常用于二分类模型。Brier score表示实际结果与估计概率之间的均方误差,分数越低表示模型性能越好。然而,需要注意的是,较低的Brier score并不一定意味着更高的校准,因为它同时反映了区分能力和校准能力。

决策曲线分析

虽然区分能力和校准对评估预测模型的性能至关重要,但它们并未为临床医生提供临床实用性方面的决策。为了解决这一限制,决策曲线分析(DCA)作为一种方法被开发出来,能够总结模型在支持临床决策中的表现

决策曲线绘制了预测模型的各种概率阈值(表示模型认为是阳性结局并需要干预的预测风险水平)所对应的净收益(NB)。通过比较不同模型的NB,DCA帮助临床医生识别哪个建议能够产生最高的NB,从而促进更好的临床决策。

如下图,横坐标是不同概率阈值,纵坐标是模型的净收益。红色曲线代表预测模型的净收益,绿色虚线代表对所有人进行干预的获益,蓝色虚线代表对所有人都不干预的获益(其实就是没有获益)。图中的紫色括号部分是我标出来的,说明在这一段的概率阈值之内,应用模型是有临床价值的,因为这段内模型的净收益比“对所有人都干预”更高,也比“对所有人都不干预”更高。

DCA的关键在于理解净收益,它类似于利润。从财务角度看,净利润是通过从收入中减去支出,然后乘以汇率得出的。在医学背景下,净收益计算为真正阳性数量减去假阳性数量,并通过一个因子(pt/(1-pt))加权,其中pt代表阈值概率。这个权重平衡了真正阳性的益处与假阳性的危害。通俗点说,净收益可以理解为:如果模型预测对了,提前干预获得收益(也许是生命延长,也许是生存质量提高等);但是如果模型预测错误,干预带来负面效应(如取了个活检,白疼了一下)。这两个差值就是净收益。

阈值pt的确定依赖于临床考量。例如,在预测前列腺癌时,预测概率超过10%也许就会促使你进行活检,因为发现侵袭性癌症的好处超过了不必要活检所带来的风险。然而,在病理骨折风险方面,除非风险超过25%,否则可能不会考虑手术。所以,这个pt取决于你对疾病严重程度的认识,提前干预所预期的获益,以及能接受干预所带来的负面效应的承受能力。

尽管DCA是一个有价值的决策工具,但它主要适用于早期干预对结果有显著影响的情况,例如早期癌症检测和治疗,这对癌症患者的生存很重要,一旦模型提示存在患病风险,患者可能会立刻采取措施。然而,某些干预措施并非完全由临床医生驱动。例如,我们前期开发的OvaRePred模型,主要用于评估并预测卵巢储备状态。如果该模型识别出卵巢储备减少并预测早期进入围绝经期,临床医生的作用仅限于提醒就诊者,让她决定何时考虑怀孕,但不能直接替她做干预。而且即使某一女性已知自己卵巢储备减少,考虑到各种因素,也不一定立刻就会采取措施。在这种情况下,DCA并不是必须的。

点击左下角“阅读原文”,学习医咖会专栏课程《理论+实操,带你轻松告别临床预测模型的小白》。