斯坦福最新研究：睡一觉，AI 就知道你还能活多久|信号|多导|心电图|查尔斯·维利尔斯·斯坦福|算法

z通过一晚上的睡眠，AI 模型就能监控最多 130 种疾病。

老年痴呆、高血压性心脏病、中风、前列腺癌、乳腺癌、二型糖尿病等等，它都能预测到。

这听起来就很像多年前，那场硅谷大骗局，一滴血验证几百项生化指标。但睡眠听起来比血液，在不靠谱这方面，有过之无不及。

一般来说，睡眠的监控，顶多就是每天早上醒来，我们可能会习惯性地看一眼连接手表的 App，昨晚深睡了几小时？评分是多少？

好一点的手表，可能还有睡眠呼吸频率、HRV 等结合不同算法，来呈现更详细的睡眠数据。

但如果现在有人说，这一夜看似平静的睡眠数据里，其实藏着你未来几年的健康命运，你会不会觉得这是天方夜谭，但又充满好奇。

就在最近，斯坦福大学团队在顶级医学期刊《Nature Medicine》上发表了一项重磅研究，他们开发了一个名为 SleepFM 的 AI 基础模型，只是通过阅读我们一个晚上的睡眠数据，就能预测未来患 130 种疾病的风险，甚至包括我们还能活多久。

SleepFM 这个睡眠评估模型，目前已经在 GitHub 上开源。科幻电影里才会上演的体检情节，AI 把它照进了现实。

具体是怎么一回事，一起来看看这个模型是怎么训练出来的。

斯坦福的研究团队给 AI 「喂」了 65000 多名参与者、总计时长超过 585000 小时的睡眠记录。这个庞大的数据库让 SleepFM 学会了人类无法察觉的生理「语言」。

六万多名参与者的信息主要来自斯坦福大学的睡眠诊所，作为主力军，该研究诊所贡献了约 35000 名参与者。这些数据记录，也并非一时半会收集的，而是从 1999 年一直覆盖到了 2024 年，整整跨越了 25 年。

还有来自商业医疗机构 BioSerenity 的数据，数据包含了美国 240 个睡眠中心的近 19000 份记录，同样时间涵盖了 2004 年到 2019 年的长周期数据。

此外还有一些公共数据集，增加模型对不同人群的适应性；以及专门用来评估模型能力的测试集等。

这些长达 25 年的数据积累，让研究人员有机会做一场时间验证。他们用 2020 年以前的旧数据训练 AI，然后让它预测 2020 年以后患者的情况。如果数据积累不够久，根本不可能验证「提前 6 年预警疾病」这种超长周期的预测能力。

有了海量且长周期的数据，这里就得泼一盆冷水了。他们使用的数据，和我们手环上那几个简单的数字根本没法比，他们用的是在睡眠门诊里，常用的分析工具——多导睡眠图（PSG）。

SleepFM 框架描述，图 A 为多导图的设置情况，以及来自不同睡眠中心的数据统计。图 B 和图 C 是将不同模态的数据，例如心电图 EKG、脑信号 BAS、肌电图 EMG 等信号，通过神经网络编码，转成深度学习模型能训练的特征，并预测最后的结果。图 D 为临床应用的评估结果。

在这个庞大的实验中，SleepFM 学习的是最复杂的生理信号组合，即多导睡眠图中包含的丰富数据，包括记录大脑在想什么的脑电图、记录心率变化的心电图、以及捕捉身体肌肉运动的肌电图、和记录呼吸信息的气流信号等。

普通人不可能天天带着这些线睡觉，这是目前的门槛所在。但另一方面，也正是因为数据如此丰富，SleepFM 才能做到普通设备做不到的事。

基于这些跨越时间的数据，斯坦福团队通过回顾性实验，让 AI 预测患者随后 6 年的真实电子病历记录。

在斯坦福内部测试集上，针对不同疾病大类（如循环系统、神经系统、肿瘤等）的整体预测表现。横轴列出了循环系统、精神障碍、神经系统甚至肿瘤等十多个大类。图中每一个黑点代表一种具体的病，位置越高，说明 AI 预测得越准（C-Index 和 AUROC 越高）。可以看到，它在神经系统和循环系统疾病上的表现尤为突出，远超及格线（虚线表示）。

结果令人非常吃惊。仅凭一个晚上的睡眠数据，SleepFM 成功预测了 130 种疾病风险（准确度指标 C-Index > 0.75），它的准确度远超预期。在斯坦福睡眠中心的内部测试集上，预测结果准确的均在 75% 以上。

全因死亡率（预测寿命）：准确度 84%。

痴呆症：准确度 85%。这意味着在记忆开始模糊的几年前，大脑在睡眠中发出的电信号就已经变了。

心力衰竭与心肌梗死：准确度分别为 80% 和 81%。

慢性肾病：准确度 79%。

其中，评估用的 C-Index 和 AUROC 都是用来给 AI 模型打分的指标，衡量它预测疾病到底准不准。简单来说，数值越接近 1，说明模型越厉害；接近 0.5 则说明模型在瞎猜。

C-Index (Harrell's Concordance Index)，中文名是一致性指数，它衡量的是模型对病人风险排序的准确性。

AUROC (Area Under the ROC Curve），中文名：受试者工作特征曲线下面积，论文中是衡量，AI 能否准确区分出，哪些人在做完睡眠检查后的 6 年内会得病，哪些人不会。