在医学研究中,连续变量(如年龄、血压、生物标志物浓度等)无处不在。然而,许多研究者在处理这些变量时,常常采用简单分类(如二分化)或假设线性关系的方法。这些方法虽然简单,但往往会导致信息丢失、统计功效下降,甚至得出错误的结论。
针对此类问题,四大顶级期刊中BMJ于2025年7月发表了一篇题为“Dealing with continuous variables and modelling non-linear associations in healthcare data: practical guide.”文章,展示简单分类或假设线性关系的方法在处理连续性变量中的弊端,并介绍更加合理的处理连续性变量和拟合非线性模型的方法。
链接:https://www.bmj.com/content/390/bmj-2024-082440
为了方便广大医学研究者学习,我们将通过两篇文章分别介绍传统的处理连续性变量存在的问题、更加合理的处理连续性变量和拟合非线性模型的方法。
连续变量的常见处理方法及其问题
在医疗研究中,连续变量通常需要进行分析,但许多研究者选择将其分类处理,例如将年龄分为“<60岁”和“≥60岁”两组,或者假设变量与结果之间存在线性关系。然而,这些方法存在诸多问题:
信息丢失:分类处理会丢失大量信息,尤其是二分化处理,会导致最大的信息损失。例如,将年龄分为两组,会忽略组内个体之间的差异。
统计功效下降:分类处理会降低统计功效,导致预测模型性能下降。例如,假设线性关系时,如果真实关系是非线性的,模型的预测能力会显著下降。
人为断点:分类处理假设在某个特定点(如中位数)前后变量的影响截然不同,这在生物学上往往没有依据。
残差混杂:分类处理会导致残差混杂,影响模型的解释能力。例如,将连续变量分类后,模型可能无法准确捕捉变量之间的复杂关系。
案例研究:脑脊液葡萄糖与细菌性脑膜炎
为了更直观地展示这些方法的弊端,本研究使用了一个公开的脑脊液葡萄糖(CSF glucose)与细菌性脑膜炎的案例研究。研究目标是通过脑脊液葡萄糖水平预测细菌性脑膜炎的发生。
数据集:包含501例急性脑膜炎患者的脑脊液葡萄糖水平、年龄、性别和脑脊液白细胞计数等信息。
建模方法:研究尝试了三种不同的建模方法:
线性模型:假设脑脊液葡萄糖与脑膜炎之间的关系是线性的。
分类模型:将脑脊液葡萄糖水平分为两组(<62 mg/dL 和 ≥62 mg/dL)。
非线性模型:使用限制立方样条(RCS)来捕捉非线性关系
三种建模方法的对比
线性模型:假设每单位脑脊液葡萄糖水平的增加都会导致脑膜炎风险的恒定变化。这种模型简单易解释,但忽略了真实关系可能是非线性的。
分类模型:将脑脊液葡萄糖水平分为两组,假设两组之间的风险差异是恒定的。这种模型虽然简单,但忽略了组内个体之间的差异,导致信息丢失。
非线性模型:使用限制立方样条(RCS)允许脑脊液葡萄糖水平与脑膜炎风险之间的关系是非线性的。这种模型能够更准确地捕捉真实关系,但需要更多的计算资源和更复杂的解释。
结果分析
模型
拟合效果:非线性模型(RCS )的 AUC 值为 0.96 ,显著高于线性模型( 0.87 )和分类模型( 0.87 ),表明其预测能力更强。
风险预测:非线性模型揭示了脑脊液葡萄糖水平在较低和较高时均会增加脑膜炎的风险,而线性模型和分类模型未能捕捉到这种 U 型关系。
图形展示:通过部分条件效应图( Partial Conditional Effect Plot )和剂量 - 反应图( Dose-Response Plo t ),可以直观地展示脑脊液葡萄糖水平与脑膜炎风险之间的非线性关 系。
总结
在处理连续变量时,简单分类和假设线性关系的方法虽然简单,但往往会导致信息丢失和预测能力下降。相反,使用限制立方样条(RCS)等非线性建模方法可以更准确地捕捉变量之间的复杂关系,提高研究的准确性和可靠性。在实际研究中,建议根据研究目标和样本量选择合适的建模方法,并通过图形化展示来解释模型结果。
参考文献:BMJ. 2025 Jul 16;390:e082440. doi: 10.1136/bmj-2024-082440.
医咖会9周年
惊喜第一弹来啦!
医咖会基础会员全面大升级,赶快去领取一年基础会员!
基础会员权益:28张基础课程券,基础课程均可兑换!医咖会SCI-AI工具,科研内容训练,回复更专业!
点击“阅读原文”/应用商店搜索/扫码下载医咖会APP,登录后,弹窗领取基础会员!
热门跟贴