单细胞测序的稀疏性曾被视为技术局限,ScDiVa却将其转化为建模优势。
单细胞RNA测序(scRNA-seq)技术的快速发展使研究者能够以前所未有的分辨率解析细胞异质性。然而,该技术产生的数据具有高维、极度稀疏(零值比例常超过80%)和无序集合(unordered multiset)的特性,给计算建模带来根本性挑战。
针对上述问题,来自中国人民大学高瓴人工智能学院和开睿医疗的团队提出ScDiVa(Single-cell Masked Diffusion for Identity & Value),全球首个基于掩码离散扩散的单细胞基础模型。该模型在59,162,450个单细胞转录组上完成预训练,系统性验证了其在重建、整合、注释及因果推断等任务上的优越性能,大幅度领先已有细胞基础模型。该工作第一作者为中国人民大学研究生王铭轩,通讯作者为中国人民大学高瓴人工智能学院马彦彪老师和开睿医疗施璐博士。
项目已全面开源:
▪ 论文:https://arxiv.org/abs/2602.03477
▪ 模型:https://huggingface.co/warming666/ScDiVa
▪ 代码:https://github.com/wangmingxuan666/ScDiVa
▪ 数据集:https://huggingface.co/datasets/warming666/ScDiVa
▪ 项目网站:https://wangmingxuan666.github.io/ScDiVa-web/
01
从结构性错配到机制对齐:为什么掩码扩散更适合单细胞数据?
理解ScDiVa的创新,需先厘清现有方法的局限。
自回归模型的顺序困境
自回归(AR)模型通过“从左到右”依次预测基因表达来生成细胞状态。这种设计隐含了一个假设:基因之间存在严格的因果时序。然而在真实的基因调控网络中,调控关系多为对称或循环的——转录因子A激活基因B的同时,B的产物也可能反馈调节A。强制线性顺序不仅引入了生物学上不存在的依赖关系,还会导致“暴露偏差”(exposure bias):早期预测的微小误差会沿序列级联放大,使整个细胞状态的重建偏离真实轨迹。
高斯扩散的数值困境
另一类方法将表达值视为连续变量,通过添加高斯噪声进行扩散建模。但单细胞测序中的“零值”具有双重含义:可能是基因真实不表达,也可能是技术性信号丢失。高斯噪声假设数值扰动是平滑连续的,却无法区分“低表达”与“信号丢失”这两种本质不同的状态。这导致模型倾向于生成“过度平滑”的表达谱,丢失了基因激活/失活的离散事件特性。
ScDiVa的机制同构设计
ScDiVa的核心突破在于建立了前向扩散过程与技术性dropout之间的数学同构。模型定义了一个连续时间的马尔可夫过程 :在任意时刻 ,每个基因位置以概率 被替换为吸收态[MASK](即完全信息丢失),以概率 1-t 保留原始状态。这一设计与单细胞测序的物理机制高度一致——当 时,所有信号消失,对应极低测序深度;当 趋于0时,信号完整保留,对应高深度测序。
更重要的是,ScDiVa采用双向Transformer编码器进行去噪,可同时利用所有未掩码位置的全局上下文推断被掩码基因。这完美契合基因调控的非顺序性:推断基因A的状态时,既可参考上游调控因子,也可参考下游效应基因,形成闭环推理。该设计从根本上避免了AR模型的暴露偏差及人为顺序依赖。
ScDiVa架构概览。该框架采用掩码建模方法,引入潜在编码器以捕获细胞的全局上下文信息。输入的基因表达谱经随机掩码后,通过一个配备RoPE相对位置编码和SwiGLU激活函数的12层Transformer编码器进行处理。模型优化双重目标损失(L):结合交叉熵损失(LCE)用于基因身份重建,以及均方误差损失(LMSE)用于表达量值回归,实现基因调控拓扑与表达剂量的联合建模。
02
关键技术组件:如何实现身份与表达量的联合建模?
单细胞表达谱包含两类异质信息:基因身份(决定调控拓扑)与表达量值(编码功能剂量)。传统方法往往侧重其一:离散tokenization擅长捕获身份结构但丢失数值精度;连续回归保留数值信息却模糊了基因事件的离散性。
ScDiVa提出双重去噪损失(Dual Denoising Loss),在统一框架下同步优化两类目标:
▪ 身份损失(L id ):对掩码位置进行基因分类,重建调控网络的拓扑结构
▪ 值损失(L val ):对同一位置进行表达值回归,恢复精确的剂量信息
二者通过加权组合: 。理论推导表明,该目标等价于联合分布的变分下界(ELBO)最大化,确保模型学习到身份与值的联合概率分布。
为在有限上下文窗口(ScDiVa设为1200)内编码最大信息量,模型进一步引入熵归一化序列化(Entropy-Normalized Serialization)。传统按表达量降序选取基因的方法易陷入“高丰度陷阱”:管家基因(如GAPDH、ACTB)在所有细胞中高表达,占据大量token却提供极少的细胞类型判别信息。ScDiVa对每个基因计算群体水平的Shannon熵 ,熵值越低表示该基因在细胞群体中表达越一致(判别力弱)。排序分数定义为:
该公式对高丰度但低熵的管家基因施加“惩罚”,使模型将token预算分配给高判别性的稀有基因。实验表明,该策略在细胞注释任务中使Macro-F1提升5.3%,尤其改善了稀有细胞类型的识别。
针对不同单细胞实验测序深度差异巨大的问题(10x Genomics平台通常每个细胞测得1000–5000个UMI,而Smart-seq2可达数十万),ScDiVa设计了深度不变采样(Depth-Invariant Sampling)策略:将扩散时间 视为测序深度的倒数代理,训练时均匀采样 ,迫使模型学习一个深度不变的规范流形。该设计使模型无需显式批次校正即可在多批次整合任务中实现技术噪声消除与生物信号保留的最优平衡。
03
系统性验证:从重建到因果推断的全栈能力
ScDiVa在5900余万个单细胞转录组上完成预训练,系统性评估覆盖四大任务层级:
1.重建任务:同时恢复基因排序与表达量
重建任务要求模型同时恢复基因的相对排序(Rank)与绝对表达量(Value)。ScDiVa在4个基准数据集上全面超越基线:在极度稀疏的Immune数据集(88%零值)上,Spearman秩相关系数达0.970,比次优模型GeneMamba(0.844)提升14.9%;在PBMC12k上,相关性达0.812,提升14.2%。关键的是,ScDiVa在Value维度的提升未以牺牲Rank为代价——BLEU分数保持0.987,证明其避免了“数值平滑化”陷阱。
使用L-Dist(↓)、BLEU(↑) 和Spearman(↑) 对多个数据集的重建质量进行评估。
2.多批次整合:消除技术噪声同时保留生物信号
整合任务要求模型消除不同实验平台、不同测序深度引入的技术批次效应,同时保留真实的生物异质性。ScDiVa在5个异构数据集上实现Avg-Batch(批次混合度)与Avg-Bio(生物结构保留度)的帕累托最优:在PBMC12k上,Avg-Batch达0.9960(近乎完美混合),Avg-Bio达0.9566(生物结构高度保留);在病理状态复杂的COVID-19数据集上,Avg-Bio达0.6689,比次优模型scGPT(0.6476)提升3.3%。
ScDiVa展现出卓越
的批次集成能力,在各种基准测试中,平衡了技术噪声消除(
Avg-Batch
)和生物保护(
Avg-Bio
scDiVa
与领先基准在各种基准测试中的比较。
3.细胞注释:精准识别稀有细胞类型
在4个组织特异性数据集上的微调实验中,ScDiVa在hPancreas上达到98.6%准确率与0.7919 Macro-F1;在高度不平衡的多发性硬化症(MS)数据集上,Macro-F1达0.7271,比GeneMamba提升36%。零样本评估(冻结主干,仅训练分类头)在8个数据集上平均准确率91.4%,Macro-F10.841,表明预训练表征具备强大的泛化能力。
ScDiVa 在精细调整(针对特定组织)和零样本场景中均能实现高精度
4.扰动预测与调控网络推断:迈向因果理解
在Adamson单基因扰动数据集上,ScDiVa预测与观测的表达变化相关性达0.837,MSE 0.134;在Norman双基因扰动数据集上,相关性0.709,成功建模非加性遗传互作。对髓系主调控因子SPI1的分析显示:模型精准识别其促进髓系标记(MS4A3、FTH1)同时抑制红系基因(HBG1/2)的双重逻辑,且排除了非因果的细胞周期基因(CCNB2、TOP2A),验证了模型的生物学可解释性。
03
范式转移:离散扩散为何是单细胞建模的“自然选择”?
ScDiVa的成功验证了一种领域原生的建模范式。与自回归和高斯扩散相比,掩码离散扩散在三个维度上与单细胞数据本质对齐:
维度
自回归模型
掩码离散扩散(ScDiVa)
结构假设
强制线性顺序,破坏调控对称性
无序集合建模,尊重基因调控的非顺序性
噪声建模
无显式噪声模型
掩码吸收态,与技术性dropout同构
生成机制
顺序采样,误差级联
并行去噪,利用全局上下文,避免暴露偏差
这种对齐不是工程技巧的堆砌,而是将数据生成的物理机制内化为模型先验。当AI模型的归纳偏置与数据的生成机制一致时,学习效率与泛化能力将获得质的提升。
05
应用前景
▪ 基础研究:作为“ 计算显微镜 ” ,通过注意力分析揭示未知调控关系,指导湿实验验证
▪ 临床转化:在癌症异质性分析中识别稀有耐药亚群;在免疫治疗中预测T 细胞响应;在再生医学中设计最优重编程路径
▪ 技术融合:框架可扩展至空间转录组、多组学整合等场景,构建统一的单细胞多模态生成模型
单细胞测序的稀疏性曾被视为技术局限,ScDiVa却将其转化为建模优势。这不仅是工程创新,更是对“如何让AI理解生命数据”这一根本问题的重新思考——真正的智能不在于对抗世界的不完美,而在于理解不完美背后的生成逻辑,并与之共舞。
06
ScDiVa 背后的科研工作者
本文第一作者王铭轩本科就读吉林大学数学学院,现为中国人民大学统计学院2026级硕士研究生,研究方向聚焦于AI for Science,大模型机理等,于高瓴人工智能学院马彦彪老师处进行科研实习。
2023至2024年,他曾在吉林大学数学学院进行科研实习,从事时间序列领域的研究。
自2024年起,王铭轩开始参与马彦彪老师课题,深度参与与开睿公司合作的细胞大模型项目。
本文的通讯作者为马彦彪,他是中国人民大学高瓴人工智能学院讲师。于2020年和2025年获得西安电子科技大学学士和博士学位,导师为焦李成教授。
他的研究方向涵盖大模型机理,多模态大模型图文理解,多智能体系统优化,长尾学习等,以第一作者和通讯作者在TPAMI、IJCV、CVPR、ICLR等人工智能领域顶级期刊发表论文20余篇,曾获6项由IGARSS、CVPR、ICCV等举办的国际竞赛冠军。长期担任TPAMI、CVPR、NeurIPS、ICLR等期刊和会议的审稿人。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
热门跟贴