脑机启侦 | 浙江大学团队提出SleepVLM（04.03）|sleepvlm|医学|波形|浙江大学|脑机

长期以来，尽管基于深度学习的自动睡眠分期模型已经达到了人类专家级别的准确率，但它们作为“黑盒”运行，缺乏可解释性，严重阻碍了其在临床的落地应用。近日，浙江大学科研团队提出了一项突破性成果——SleepVLM。这是首个应用于可解释睡眠分期的视觉语言模型（VLM）。该模型不仅能从多通道多导睡眠图（PSG）波形图像中准确进行睡眠分期，还能基于美国睡眠医学会（AASM）评分标准，自动生成临床医生可读的自然语言推理过程。目前，该研究已在arXiv发布预印本，同时开源了全球首个专家标注脑电睡眠分期推理数据集 MASS-EX。

01 研究背景介绍

睡眠障碍是全球性的重大公共卫生挑战，仅阻塞性睡眠呼吸暂停就在全球影响近十亿成年人。多导睡眠图（PSG）是诊断睡眠障碍的临床金标准。在目前的临床实践中，经过培训的睡眠技师需要通过肉眼观察多通道PSG记录，并依据AASM评分手册中的规则对睡眠阶段进行分类。

过去十年中，深度学习在自动睡眠分期方面取得了巨大进展，性能已逼近甚至达到人类专家水平。然而，这些模型本质上是黑盒分类器，只能输出预测标签，而无法解释决策过程。虽然现有的一些可解释AI（XAI）方法（如热力图、注意力可视化等）能指出模型关注了哪些输入区域，但它们无法用临床语言解释“为什么” 。临床医生需要的不是抽象的模型特征，而是基于与他们日常诊断相同的医学词汇和规则系统（AASM）的“临床合理性”解释。

02 论文概要

针对这一痛点，浙江大学团队提出了 SleepVLM。这是一种规则驱动的视觉语言模型框架，巧妙地将自动分类与临床解释结合在单次前向传播中。

模拟临床技师的工作流：

■ 波形图像渲染：将多通道PSG信号（如 EEG, EOG, EMG）转换为标准化的多通道波形图像，使模型像人类专家一样“观察”波形形态。

两阶段训练管道：

实验不仅解决了稳定性问题，还保持了极高的采样精度。

■ 阶段一：波形感知预训练（WPT）。训练模型预测每秒的频带功率和振幅特征，强化其对脑电波形的视觉感知能力。

■ 阶段二：规则驱动的监督微调（SFT）。向模型输入连续三个epoch的图像（提供上下文），并在系统提示中注入结构化的AASM评分规则，要求模型不仅输出睡眠阶段，还要引用具体的AASM规则并写出完整的推理逻辑。

左侧为信号处理与波形渲染；中间为两阶段训练管道；右侧展示了同时输出标签、规则与自然语言推理的过程。

03 研究结果分析

研究团队在一个保留测试集（MASS-SS1, n=53）和一个外部临床测试集（ZUAMHCS, n=100）上，对SleepVLM进行了分类性能与推理质量的双维度评估。

■媲美SOTA的分类性能

在MASS-SS1测试集上，SleepVLM取得了Cohen's kappa为0.767的优异成绩；在更具挑战性的外部临床数据集ZUAMHCS上，kappa值依然保持在0.743。与现有的12种基于信号的方法和2种基于图像的方法相比，SleepVLM性能处于第一梯队，并且展现出卓越的跨域鲁棒性（跨域 kappa 仅下降 2.4 个百分点）。最关键的是，它是唯一一个在保持高准确率的同时提供详细医学解释的模型。

■ 临床专家认可的高质量推理

除了准确率，由专业睡眠技师对模型生成的推理文本进行了严格的盲评打分（满分 5.0）。在事实准确性（Factual Accuracy）、证据全面性（Evidence Comprehensiveness）和逻辑连贯性（Logical Coherence）三个维度上，SleepVLM 在两个数据集上的平均得分均超过了 4.0 分（“良好”水平）。模型能够精准识别Alpha节律、K复合波、睡眠纺锤波等特征，并使用排他性逻辑进行辩证推理。

模型不仅给出了准确的分期结果，还引用了特定的AASM规则（如W.1, N2.1等），并详细描述了各通道中观察到的生理特征及排他性推导过程。

■ 轻量化与易部署特性

为了满足临床环境的部署需求，团队应用了W4A16量化技术。量化后的模型大小缩减了54.9%（仅3.2GB），推理速度提升了2.2倍，而kappa值的损失不超过1.6个百分点。这使得SleepVLM完全可以部署在单张消费级 GPU（如 RTX 4090）上，极大地降低了临床应用门槛。

04 结论与启发展望

SleepVLM打破了长期以来自动睡眠分期领域的“准确率vs.可解释性”困境，确立了一个全新的范式：将自动睡眠分期从“仅输出标签”的预测推向“受规则约束、可审计的临床推理” 。这为未来建立值得信赖的人机协作（Human-AI Collaboration）睡眠医学辅助系统奠定了坚实的基础。

为了进一步推动可解释睡眠医学的研究，研究团队开源了MASS-EX数据集。该数据集包含了62名受试者的59317个epoch，提供了基于AASM规则的详细专家标注和推理文本，填补了该领域高质量解释性基准数据集的空白。

来源 | Guifeng Deng, Pan Wang, Jiquan Wang, Shuying Rao, Junyi Xie, Wanjun Guo, Tao Li, Haiteng Jiang. SleepVLM: Explainable and Rule-Grounded Sleep Staging via a Vision-Language Model. 脑机接口社区

浙大科技园启真脑机智能产业化基地是在浙大控股集团领导下，由浙江大学科技园发展有限公司与杭州未来科技城管委会共建，围绕脑机智能产业主体，辐射脑机+生命健康、脑机+智能制造、脑机+新一代信息技术、脑机+新材料等领域的专业化特色产业基地，由杭州启真未来科技发展有限公司负责全面运营。

基地依托浙江大学在脑机智能方面的学科优势，以脑机智能作为核心科技支撑，贯彻浙江大学国家大学科技园“有组织科技成果转化、有靶向科技企业孵化、有体系未来产业培育”的服务体系，致力于打造脑机智能领域具备成果显示度、区域影响力的产业化高地。