临床预测模型，如何估算样本量|回归|差值|样本量|神经网络|预测

内容来自：“小白学统计”微信公众号，感谢作者授权

预测模型开发中的样本量确定可以通过两种主要方法：经验法则和基于特定标准的计算方法。

样本量确定的经验法则：

10 EPV（每个变量10个事件）和10 EPP（每个候选预测参数10个事件）是比较常用的经验法则。如果只比较这两个原则，建议选择10 EPP而不是10 EPV，EPP可以避免对“变量”术语的潜在误解。例如，当一个连续变量如“年龄”被纳入模型时，它对应一个估计参数。但是，添加年龄的二次项会增加到两个参数。同样，将年龄分类为五组需要估计四个参数。换句话说，一个变量并不等于一个参数，一个变量很可能是多个参数。所以不能简单根据变量数来确定样本量。

尽管10 EPP原则很简单，但也存在不少争议。有的模拟研究建议，增加10 EPP到20 EPP甚至50 EPP以减少偏差。这种不一致性源于所需事件取决于多种因素，如预测因子的效应量、研究群体中的结果比例和预测因子的分布。

样本量确定的计算方法：

Riley等人提出的计算方法包括五个步骤[1-3] ：

步骤1：计算样本量以确保整体结果风险的精确估计，相当于保证截距的精准估计，推荐的误差边界为0.05。

步骤2：计算样本量以确保平均绝对预测误差（MAPE）小于5%。这是从预测和真实的差值角度来说的。

步骤3：计算样本量以确保全局收缩因子大于0.9，减少过拟合。

步骤4：计算样本量以确保显著和调整后的R²Nagelkerke之间的绝对差异不超过0.05。步骤3和4都是从过拟合角度来说的。

步骤5：选择四个计算得出的样本量中最大的作为最终样本量。

如果大家想直接略过理论部分，直接看如何计算，Riley等给出了一个r包pmsampsize。比如，结局是二分类变量；已知以往文献的roc曲线下面积为0.8，拟纳入15个参数，结局患病率约为0.1。那就可以用下面语句实现样本量估算

pmsampsize(type = "b", cstatistic = 0.8, parameters=15, prevalence = 0.1)

虽然计算方法在理论上比经验法则更合理，因为它考虑了多个因素，但仍存在许多实际挑战。

首先，尽管作者提供了样本量计算所需参数的推荐值，但使用固定参数值并不可取。例如，在步骤1中，作者固定误差为0.05并不合理。比如，对于5%和50%的患病率，都采用0.05的误差，显然不大合理。因此，在实际应用中，仍需结合临床知识和先前文献进行综合判断。