寒假提升计划
看了这么多顶刊文献,想要进行数据分析的心是不是蠢蠢欲动了?寒假期间 PsyBrain 脑心前沿团队会带来一些数据分析流程的讲解,配合示例数据和代码,带你跑通复杂的顶刊分析流程,欢迎大家关注~
如果你有感兴趣的、想学习的分析方法,欢迎给我们留言~
基本信息
Title:Machine learning enables efficient neurocognitive profiling in patients with schizophrenia
发表时间:2026.1.7
Journal:Nat. Mental Health
影响因子:8.7
获取原文:
- 添加小助手:PSY-Brain-Frontier即可获取PDF版本
- 点击页面底部“”即可跳转论文原网页
研究动机与背景
精神分裂症(SCZ)是一种以认知障碍为核心特征的致残性精神疾病,这种障碍不仅出现在病程早期,且能有效预测患者的功能预后,但目前的临床评估严重依赖冗长且耗时的测试电池,导致其在现实医疗场景中难以部署 。虽然神经认知领域能客观反映底层的神经生物学过程,但多日的测试负担限制了生物标志物的大规模应用,因此迫切需要开发更短、更高效且具有同等诊断价值的评估工具 。作者试图利用机器学习技术,从海量的神经认知数据中提取最关键的特征子集,以实现精神分裂症的精准且高效的临床剖析 。
实验设计与方法逻辑
研究者寻求确定是否可以通过神经认知域的一个子集来有效区分精神分裂症患者与健康对照者 。他们假设,在保持分类准确性的前提下,可以大幅降低模型的复杂度 。
为了实现这个目标,本研究基于 COGS-2 研究中 559 名患者和 745 名健康对照者的 15 项神经认知评估数据,首先采用 UMAP 降维技术进行高维数据的可视化展示,以观察两组间的整体认知差异 。随后,研究者训练了八种不同的机器学习算法(包括线性、非线性及神经网络模型),并通过重复五折交叉验证优化参数,以评估这些模型在区分 SCZ 和 HCS 方面的性能 。为了进一步简化模型,作者计算了特征重要性方差(FIV),并利用递归特征消除(RFE)算法迭代移除冗余特征,最终确立了一个仅包含核心特征的“精简模型” 。最后,该模型在完全独立的 COGS-1 队列中进行了外部验证,以确保其科学发现的可靠性与一般性 。
核心发现
神经认知图谱的显著分离
UMAP 分析显示,仅基于 15 个认知内表型,患者组与对照组在二维空间中表现出明显的群体分离。并且线性模型性能占优:在八种 ML 模型中,提升广义线性模型(LM_BoostedGLM)表现最佳(ROC 0.899),显著优于某些更复杂的树状模型
Fig. 1 | Neurocognitive profiles distinguish between SCZ and HCS. Fig1 证明精神分裂症患者与健康人在全局认知维度上存在显著群体分离 ,且多种机器学习模型均能以约 0.90 的高精度实现疾病分类
Table 3 展示了八种机器学习模型的对比结果
“以少胜多”的精简模型
通过 RFE 筛选发现,仅保留“言语学习(CVLT_Total_Correct)”和“情绪识别(CNB_Emotion_Identification)”两个认知域,即可实现 0.888 的 ROC 曲线下面积,与包含 15 个特征的完整模型相比无显著差异。并且模型存在跨队列的强稳健性,该精简模型在独立的验证队列(COGS-1)中依然保持了良好的分类能力(ROC 0.85),证明了其作为生物标志物的泛化潜力
Fig. 2 | Feature selection and performance of a sparse ML model. Fig2 展示了核心指标筛选与验证,确立了言语学习与情绪识别是区分病患的核心认知指标 ,并证实该精简模型在独立外部队列中依然具有强大的泛化能力与诊断价值
省流总结
针对精神分裂症临床认知评估耗时冗长的痛点,本研究利用大规模队列数据和机器学习算法证明,仅通过测量“言语学习”和“情绪识别”两个关键认知域,即可达到与全套复杂测试相当的诊断准确性 。这一发现不仅揭示了精神分裂症最具代表性的病理认知特征,更为临床医生提供了一种可以在短时间内完成的、客观的数字化诊断辅助工具,具有极高的现实应用价值 。
热门跟贴