研究亮点
CKD精准分层:基于PSG表型与XGBoost模型实现慢性肾病(CKD)全病程精准分级,外部验证展现卓越的泛化性能。
PSG表型解析:揭示夜间醒后难以再次入睡、呼吸暂停时长及HRV等核心预测特征,表明自主神经受损与缺氧负荷是CKD的潜在机制。
研究问题
慢性肾病(CKD)是一种以肾功能逐渐衰退为特征的进行性疾病,常伴随贫血、心血管疾病及代谢功能障碍,最终可发展为终末期肾病(ESKD),严重威胁患者生命与家庭福祉。传统筛查手段主要依赖血清肌酐、肾小球滤过率(eGFR)等生化指标,不仅诊断滞后,且受限于有创性及医疗资源门槛,难以应用于大规模早期筛查,往往导致患者错失最佳干预窗口。
与此同时,睡眠障碍(如睡眠呼吸暂停、失眠)在CKD患者中高发。研究表明,睡眠障碍不仅是CKD的风险因素,更通过低氧、炎症及自主神经失调等机制进一步加剧肾功能损伤。然而,尽管二者病理机制关联明确,但既往研究多局限于主观问卷或单一生理信号,未能充分利用大规模、多维度的客观睡眠数据,这限制了其在CKD精准分级及个性化管理中的应用潜力。
综上,Erdenebayar Urtnasan团队提出了一种基于多维度睡眠表型数据的创新筛查框架,试图验证:通过集成学习(ensemble learning)算法,能否仅凭PSG睡眠数据精准预测CKD的严重程度分期?
研究方法
► 数据集构建
➢训练/测试集:通过倾向性评分匹配纳入了基线可比的358名CKD受试者。
➢外部验证集:纳入大样本健康睡眠数据集,共1016例。
► 特征工程
➢特征提取:从PSG中提取了1210个临床表型特征,涵盖呼吸事件、睡眠结构、心血管信号、肢体运动、血氧饱和度等,全面刻画了患者的夜间生理图谱。
➢特征筛选:首先,通过卡方检验剔除无关变量。随后,应用基于决策树模型的特征重要性评分结合交叉验证的递归特征消除(RFE)技术,筛选出最具判别力的关键特征子集。
► 模型构建
➢算法矩阵:研究团队采用了四种主流的集成学习算法。
■随机森林(random forest, RF):通过袋装法(bagging)降低方差,确立基线稳定性。
■极端梯度提升(XGBoost)、轻量梯度提升(LightGBM)与分类提升(CatBoost):均通过提升法(boosting)来迭代修正错误,逼近最优解。三者分别在正则化控制、计算速度及类别特征处理上展现独特优势。
➢ 分类目标:依据eGFR(mL/min/1.73 m²)标准,对受试者进行Stage 1-5的精细化分级,层级越高,CKD病程更严重。
■ Stage 1(STG1):大于 90 mL/min/1.73 m²
■ Stage 2(STG2): 60–89 mL/min/1.73 m²
■Stage 3a(STG3a): 45–59 mL/min/1.73 m²
■ Stage 3b(STG3b): 30–44 mL/min/1.73 m²
■ Stage 4(STG4): 15–29 mL/min/1.73 m²
■ Stage 5(STG5):小于 15 mL/min/1.73 m²
➢ 数据不平衡处理:为解决CKD分期上的数量偏倚问题,在训练阶段使用了SMOTE技术来扩充Stage 5的样本,但在测试阶段使用真实分布,以确保评估结果的临床真实性。
主要结果
1. 模型分类效能评估
➢ 四种集成学习模型在CKD多分类任务(Stage 1-5)中均展现出稳健性能。其中,XGBoost模型的综合表现优于其他三类模型:
■XGBoost:Accuracy = 0.79,AUC = 0.94;
■ CatBoost:Accuracy = 0.61,AUC = 0.94;
■ LightGBM:Accuracy = 0.75,AUC = 0.98;
■ random forest:Accuracy = 0.77,AUC = 0.92;
➢ 在分层效能上,XGBoost在区分轻度CKD(Stage 2)及CKD重症阶段(Stage 3-5)的表现上均优于其他三类模型(Stage 2:AUC = 0.95;Stage 3-5:AUC > 0.89),证实了其捕捉疾病全病程微细特征的能力。
图a-d分别展示了随机森林、XGBoost、LightGBM及CatBoost四种算法在不同CKD分期(Stage 1-5)下的分类效能曲线。AUC数值越高,表明模型区分对应CKD分期的能力越强。
2. 外部数据集泛化验证
➢ 四类模型均展现了强劲的泛化能力。特别地,XGBoost模型在区分晚期CKD各阶段的表现上均优于其他三类模型(Stage 3b:AUC = 0.97;Stage 4:AUC = 0.98;Stage 5:AUC = 1.00)。
图a-d分别展示了随机森林、XGBoost、LightGBM及CatBoost四种算法在独立测试队列中对各CKD分期的分类效能。
3. 关键表型特征解析
➢ 特征重要性分析(SHAP)显示,夜间醒后难以再次入睡在XGBoost、LightGBM及CatBoost模型中均为预测CKD分级的核心预测特征。此外,REM期呼吸暂停时长、血氧下降及HRV等指标也占据高权重,揭示了夜间间歇性低氧、自主神经受损与CKD的严重程度存在密切关联。
图a-d分别展示了随机森林、XGBoost、LightGBM及CatBoost四种集成学习模型中,预测贡献度最高的临床表型特征(按平均SHAP值排序)。
结论与启示
该研究创新性地构建了基于PSG联合集成学习模型的无创筛查框架,证实仅凭夜间睡眠生理表型即可精准分级CKD严重程度(尤其是XGBoost模型)。特别地,研究揭示夜间醒后难以再次入睡、呼吸暂停时长及HRV等是区分CKD严重程度的核心预测特征,强有力地支持了睡眠表型作为反映肾功能状态的潜在生物标志物的临床价值。
此外,该模型为临床提供了一种机会性筛查的新路径:即利用既有睡眠监测数据早期预警CKD风险,无需额外侵入性检查。未来,通过将HRV、血氧等关键特征移植至智能可穿戴设备,并融合生化、基因等多模态数据,有望实现CKD全病程的低成本居家监测与早期精准预警。
来源 | 神踪科技
浙大科技园启真脑机智能产业化基地是在浙大控股集团领导下,由浙江大学科技园发展有限公司与杭州未来科技城管委会共建,围绕脑机智能产业主体,辐射脑机+生命健康、脑机+智能制造、脑机+新一代信息技术、脑机+新材料等领域的专业化特色产业基地,由杭州启真未来科技发展有限公司负责全面运营。
基地依托浙江大学在脑机智能方面的学科优势,以脑机智能作为核心科技支撑,贯彻浙江大学国家大学科技园“有组织科技成果转化、有靶向科技企业孵化、有体系未来产业培育”的服务体系,致力于打造脑机智能领域具备成果显示度、区域影响力的产业化高地。
热门跟贴