z通过一晚上的睡眠,AI 模型就能监控最多 130 种疾病。
老年痴呆、高血压性心脏病、中风、前列腺癌、乳腺癌、二型糖尿病等等,它都能预测到。
这听起来就很像多年前,那场硅谷大骗局,一滴血验证几百项生化指标。但睡眠听起来比血液,在不靠谱这方面,有过之无不及。
一般来说,睡眠的监控,顶多就是每天早上醒来,我们可能会习惯性地看一眼连接手表的 App,昨晚深睡了几小时?评分是多少?
好一点的手表,可能还有睡眠呼吸频率、HRV 等结合不同算法,来呈现更详细的睡眠数据。
但如果现在有人说,这一夜看似平静的睡眠数据里,其实藏着你未来几年的健康命运,你会不会觉得这是天方夜谭,但又充满好奇。
就在最近,斯坦福大学团队在顶级医学期刊《Nature Medicine》上发表了一项重磅研究,他们开发了一个名为 SleepFM 的 AI 基础模型,只是通过阅读我们一个晚上的睡眠数据,就能预测未来患 130 种疾病的风险,甚至包括我们还能活多久。
SleepFM 这个睡眠评估模型,目前已经在 GitHub 上开源。科幻电影里才会上演的体检情节,AI 把它照进了现实。
具体是怎么一回事,一起来看看这个模型是怎么训练出来的。
斯坦福的研究团队给 AI 「喂」了 65000 多名参与者、总计时长超过 585000 小时的睡眠记录。这个庞大的数据库让 SleepFM 学会了人类无法察觉的生理「语言」。
六万多名参与者的信息主要来自斯坦福大学的睡眠诊所, 作为主力军,该研究诊所贡献了约 35000 名参与者。这些数据记录,也并非一时半会收集的,而是从 1999 年一直覆盖到了 2024 年,整整跨越了 25 年。
还有来自商业医疗机构 BioSerenity 的数据,数据包含了美国 240 个睡眠中心的近 19000 份记录,同样时间涵盖了 2004 年到 2019 年的长周期数据。
此外还有一些公共数据集,增加模型对不同人群的适应性;以及专门用来评估模型能力的测试集等。
这些长达 25 年 的数据积累,让研究人员有机会做一场时间验证。他们用 2020 年以前的旧数据训练 AI,然后让它预测 2020 年以后患者的情况。如果数据积累不够久,根本不可能验证「提前 6 年预警疾病」这种超长周期的预测能力。
有了海量且长周期的数据,这里就得泼一盆冷水了。他们使用的数据,和我们手环上那几个简单的数字根本没法比,他们用的是在睡眠门诊里,常用的分析工具——多导睡眠图(PSG)。
SleepFM 框架描述,图 A 为多导图的设置情况,以及来自不同睡眠中心的数据统计。图 B 和图 C 是将不同模态的数据,例如心电图 EKG、脑信号 BAS、肌电图 EMG 等信号,通过神经网络编码,转成深度学习模型能训练的特征,并预测最后的结果。图 D 为临床应用的评估结果。
在这个庞大的实验中,SleepFM 学习的是最复杂的生理信号组合, 即多导睡眠图中包含的丰富数据,包括 记录大脑在想什么的脑电图、记录心率变化的心电图、以及捕捉身体肌肉运动的肌电图、和记录呼吸信息的气流信号等。
普通人不可能天天带着这些线睡觉,这是目前的门槛所在。但另一方面,也正是因为数据如此丰富,SleepFM 才能做到普通设备做不到的事。
基于这些跨越时间的数据,斯坦福团队通过回顾性实验,让 AI 预测患者随后 6 年的真实电子病历记录。
在斯坦福内部测试集上,针对不同疾病大类(如循环系统、神经系统、肿瘤等)的整体预测表现。横轴列出了循环系统、精神障碍、神经系统甚至肿瘤等十多个大类。图中每一个黑点代表一种具体的病,位置越高,说明 AI 预测得越准(C-Index 和 AUROC 越高)。可以看到,它在神经系统和循环系统疾病上的表现尤为突出,远超及格线(虚线表示)。
结果令人非常吃惊。仅凭一个晚上的睡眠数据,SleepFM 成功预测了 130 种疾病风险(准确度指标 C-Index > 0.75),它的准确度远超预期。在斯坦福睡眠中心的内部测试集上,预测结果准确的均在 75% 以上。
全因死亡率(预测寿命): 准确度 84%。
痴呆症: 准确度 85%。这意味着在记忆开始模糊的几年前,大脑在睡眠中发出的电信号就已经变了。
心力衰竭与心肌梗死: 准确度分别为 80% 和 81%。
慢性肾病: 准确度 79%。
其中,评估用的 C-Index 和 AUROC 都是用来给 AI 模型打分的指标,衡量它预测疾病到底准不准。简单来说,数值越接近 1,说明模型越厉害;接近 0.5 则说明模型在瞎猜。
C-Index (Harrell's Concordance Index),中文名是一致性指数,它衡量的是模型对病人风险排序的准确性。
AUROC (Area Under the ROC Curve),中文名:受试者工作特征曲线下面积,论文中是衡量,AI 能否准确区分出,哪些人在做完睡眠检查后的 6 年内会得病,哪些人不会。
模型在外部独立数据集(SHHS) 上的测试结果。结果显示,在针对中风(Stroke)、心力衰竭(Congestive HF)、心肌梗死以及心血管疾病死亡等 6 项关键指标的预测中,AI 依然保持了极高的准确率(大部分 AUROC > 0.8)
从这个角度来看,能证明它确实掌握了「核心医术」,不是对这 65000 人的电子病历死记硬背。
但是,既然都要去医院贴满电极做 PSG,这个 AI 还有什么用?虽然是一晚上,但是要监控心电图、脑电图、肌电图,这跟我想的「睡一觉」完全不一样。
睡眠研究常用多导图设备(PSG)
斯坦福在论文最后给出的结论提到,首先是 SleepFM 这个模型,在同类型的多导图预测疾病的模型中,目前是做得最好,预测最准确的一个模型。
另一方面,他们提到这也是一种存量价值。意思是,根据他们的统计,目前全球每年有数百万人因为打呼噜(睡眠呼吸暂停)去做 PSG 检查。
但是在过去,这堆复杂的数据医生看完 PSG 的「呼吸指标」后,这份检查就没用了。现在有了 SleepFM,同样的一次检查,不需要病人做额外的工作,就能得到一份关于心脏、大脑和寿命的深度风险报告,这是对现有医疗资源的极致利用。
此外,他们也没有给多导图之外的监控数据使用,判死刑。具体来说,SleepFM 模型像是一个可穿戴设备的教师,而我们现在的智能手表所采用的分析算法,可以说是一个学生。
在这篇论文中埋下了一个彩蛋,SleepFM 采用了一种通道无关(channel-agnostic)的设计。 这意味着,虽然它是被多导图那全套装备,训练出来的,但它被训练得非常灵活。
即使未来去掉了脑电图,只剩下智能手表能测到的心电和呼吸信号,这个经过大师级训练的 AI,依然能利用它学到的通用规律工作。
就像论文作者所展望的,SleepFM 能为未来基于可穿戴设备的无创、实时健康监测,铺平道路。
这么看下来,基于多导图的睡眠数据,还是要比那滴血更靠谱一点。论文作者在 X 发文说,多导图能获取的数据,比消费级的穿戴设备确实要多,但使用更便携的穿戴设备,是他们未来工作的方向。
有网友评论说,
这项研究最终将指向这样一个事实:几乎所有疾病都与代谢有关,而个体的代谢状态最能体现在睡眠中。
睡眠数据看起来像一座冰山,漂浮在海面上我们看到的只是非常有限的一部分。SleepFM 也是朝着将我们的睡眠,作为早期健康预警系统,迈出了重要一步。
在消费级穿戴设备的传感器精度进一步提升,配合这种经过临床大数据训练的 AI 算法,我们的智能手表,将来或许真就能成为一个全天候的 AI 医生。
到那个时候,它不仅能记录我们的入睡时间,而且能在身体发出细微求救信号的第一时间,发送一条也许能改变命运的提醒,「检测到早期风险信号,建议及时就医或改善生活习惯。」
在这个未来到来之前,最好的健康建议依然没变:今晚,早点睡吧。
欢迎加入 APPSO AI 社群,一起畅聊 AI 产品,获取,解锁更多 AI 新知
我们正在招募伙伴
简历投递邮箱hr@ifanr.com
✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)
热门跟贴