临床预测模型的内部和外部验证|有效性|移植性|重复性|预测

内容来自：“小白学统计”微信公众号，感谢作者授权

本文主要是介绍预测模型的验证。

模型验证的目的是评估模型的可重复性（reproducibility）和可移植性（transportability）。可重复性评估模型在非开发数据、且特征相似的人群中的有效性。而可移植性则评估模型在与开发数据特征不同的新人群中的有效性。

内部验证

模型验证通常涉及内部和外部验证过程。内部验证用的是模型开发时的数据集，主要关注可重复性。

内部验证的基本思路是将样本分成两个部分：用于构建模型的训练集（training set）和用于评估模型有效性的验证集（validation set）。

随机分割是一种最简单的方法，即按一定比例（如7:3、8:2等）随机将数据分为训练和验证两部分，但该法被批评的也最多。首先，在样本量有限的情况下，分割数据集会导致子集变小，从而增加过拟合的风险，产生不可靠的模型。其次，随机分割每次会生成不同的结果，这可能导致研究人员反复进行分析，并选择性地报告最有利的结果。因此，实际应用中，随机分割方法不作为首选。

相比之下，重新采样技术，如交叉验证和自助法（bootstrapping）更具吸引力，能够获得模型的稳定性。以往的研究表明，自助法在小样本量下特别有效，建议可作为评估预测模型可重复性的首选方法。

有的人容易把一些内部验证当做了外部验证，这需要注意。

外部验证

虽然内部验证方便，但它往往会产生过于乐观的结果，并倾向于夸大模型的表现。因此，在临床环境中应用预测模型之前，外部验证变得至关重要。然而，目前的研究表明，大多数预测模型仍处于开发阶段，外部验证的重视不足。这妨碍了预测模型在临床实践中的有效实施。

外部验证评估原始模型在新的患者群体中的表现，这些患者群体是该预测模型的预定对象。

地理验证（或称空间验证，geographical validation）被广泛认为是首选方法，它评估模型在不同机构或地区的可移植性。然而，这种方法在实施上面临重大挑战，需要来自多个单位的广泛合作和数据收集。事实上，绝大多数的模型开发数据可能都不是多中心的，多中心合作是一个很实际的问题，不是一个简单的科学问题。

时间验证（temporal validation）通常被视为一种在时间上进行的外部验证，它检查先前开发的模型在同一中心后续患者队列中的有效性。例如，同一中心的来自于2018-2019年的数据可以用于模型开发，而2020年的数据可以作为验证数据集。尽管实现更简单，时间验证主要关注可重复性。因此，它的有效性介于内部验证和地理验证之间。

如何确定验证的是可重复性还是可移植性?

为了确认外部验证是否测量可重复性或可移植性，一种方法是比较开发和验证人群之间的病例组合（case mix ，即预测变量的分布）。如果外部验证人群与开发人群的病例组合非常相似，主要评估的是可重复性。相反，如果不同人群之间病例组合差异较大，则主要评估可移植性。

Ramspek等人在一项外部验证研究中发现，为血液透析患者开发的死亡预测模型，在应用于腹膜透析这一亚组人群时，该模型在这一人群中的区分度明显增强。

作者将这种增强的区分度主要归因于病例组合的更大异质性：腹膜透析患者的年龄范围更广，而且包含从相对健康到极度虚弱的个体。从这一角度来看，如果应用人群的预测变量的变异增加，可能会增强预测模型的区分度。同样反过来，如果你在开发模型所用的人群的变异较大（如年龄范围为20-80），而将模型应用到变异更小的人群（如年龄范围30-70），那很可能效果会变差。

外部验证必须报道吗？

虽然普遍观点提倡在学术出版物中对预测模型进行外部验证，但一些研究者对此提出了异议。Collins等认为，没有外部验证而强行要求报道有时反而适得其反，容易增加虚报的风险。

我们认为，如果用于模型开发的数据在地理上代表了预测模型预期服务的患者群体，即使没有空间外部验证，也能够评估模型的表现。因为空间外部验证主要是担心模型用到其它地方的人群可能会有不同表现，因为你的开发数据只包含了一个地区人群，用到另一个地区的人群就不一定好。

但是如果你的模型开发人群包含了各地区的不同人群，这种情况下模型本身已经反映出了对各地区人群的表现。当然这是理想中的，一个模型的开发不大可能包括该模型拟应用的所有地区的人群。但在国内有的医疗机构也可以接近这种情况。例如，在构建生殖相关预测模型时，来自于该生殖中心的患者有超过60%的是来自全国其它地区，这增加了数据的区域代表性。

因此，用这一中心的数据开发模型具有较好的地理代表性。即使没有地理验证，也可以有效评估预测模型在中国人群中的表现。

小结

预测模型的验证是模型发表和应用的必不可少的环节。内部验证相对简单，但需要搞清楚各种内部验证方法的特点，尤其不要将它们看作是外部验证。外部验证就更难一些，不是因为技术上，而是因为实际多中心的合作太难，获取多中心数据太难。

然而如果没有外部验证，始终还是很难说明模型的适用性，除非你用的建模数据非常有多地区的代表性。从应用角度来说，首先要有好的内部验证效果，这是最基本的。在此基础上，再想办法进一步做外部验证。然后才有可能在临床中考虑应用。