单细胞RNA测序(scRNA-seq)为不同组织和疾病状态下的细胞多样性提供了全面图谱。鉴于现有的scRNA-seq数据计算方法难以在不同数据集和细胞状态下实现可扩展性,研究人员开发了单细胞基础模型,以捕捉高维、稀疏的单细胞数据集中的复杂模式。虽然目前单细胞基础模型已成为表征、分类和分析单细胞数据集中复杂信息的强大工具,但已有模型无法整合调控先验信息、处理数据稀疏性或高效处理长基因序列。

为此,华大研究院团队及合作者提出了一种专为scRNA-seq数据分析设计的基础模型RegFormer。该模型将基因调控网络与基于Mamba的状态空间架构相结合,克服了Transformer架构在可扩展性和上下文长度方面的局限。RegFormer能够同时捕捉基因表达动态和基因调控的层级结构,具有卓越的可扩展性和生物学准确性。在细胞注释、基因调控网络重构、遗传扰动预测及药物反应建模等多样化基准测试中,RegFormer始终优于scGPTGeneformer等现有基础模型总之,RegFormer可用于深入揭示基因调控机制及细胞状态转换的内在规律,成为解析复杂转录程序、推动单细胞生物学发展的一个可扩展框架。

打开网易新闻 查看精彩图片

RegFormer模型设计与验证

RegFormer通过整合基因调控网络与Mamba序列建模技术,将基因调控先验信息融入单细胞转录组建模,从而揭示单细胞基因表达背后的调控机制(图1A)。基因调控网络揭示了基因之间的复杂调控关系,为理解基因表达在细胞环境中的调控机制提供了框架;Mamba模块能够高效灵活地建模基因相互作用,并适应对scRNA-seq数据的复杂特性。整合基因调控网络和Mamba模块有助于深化研究人员对细胞行为与功能的理解,满足单细胞研究对更具生物学依据计算模型的需求。

在大规模预训练中,研究团队利用了涵盖45种不同组织类型、多种生物学背景的250万个人类单细胞样本数据,数据预处理遵循统一流程。为整合生物学先验知识,研究使用经严格筛选的基序-基因映射关系,将转录因子(TF)基序与其下游靶基因相连接,构建了基因调控网络(图1B)。在这一框架下,RegFormer采用双重嵌入方式对每个基因进行编码:用于表征基因定量表达的数值嵌入和用于表征基因调控特征的标记嵌入这些嵌入数据通过Mamba模块进行处理,按照基因调控网络指导的基因顺序组织,能够同时捕捉基因间的局部相互作用与长程依赖关系(图1D)。

打开网易新闻 查看精彩图片

图1.RegFormer框架概述

研究团队评估了基因调控先验知识与架构设计对RegFormer学习行为的影响,显示RegFormer能够捕捉扩展基因空间内的跨层级调控关系。基于RegFormer嵌入重构的基因调控网络展现出更强的生物学一致性。与图神经网络框架相比,RegFormer在基因和细胞层面均实现了更高的准确率。此外,状态空间建模方法能更有效地捕捉层级化的转录组依赖关系,而引入调控先验信息更具优势。值得注意的是,更长的输入序列提供了更全面的调控背景,使RegFormer能够捕捉转录模块间的长程依赖关系,从而同时提升生物学洞察力和模型的可扩展性。

不同组织单细胞嵌入效果

利用BioLLM基准测试框架,研究团队系统评估了RegFormer与scGPT、GeneFormer、scFoundation、scBERT模型在多个人类组织数据集中的表征能力(图2)。数据显示,RegFormer在区分不同生物学特性的细胞群体方面始终表现更优。在人类肺数据集中,RegFormer准确区分了上皮细胞、内皮细胞和免疫细胞谱系,有效捕捉了组织内的异质性(图2A)。在骨髓数据集中,RegFormer在区分早期髓系和淋巴系祖细胞方面优于其他模型(图2B)。在树突状细胞和胰腺数据集中,RegFormer在保留树突状细胞亚型一致性的同时,有效分离了主要胰腺分区,且表现优于PCA(图2C-D)。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

图2.RegFormer与其它单细胞基础模型进行比较。

提升细胞类型注释性能

研究团队在6个代表性数据集上,对RegFormer与其它单细胞模型的细胞类型注释性能进行了对比,发现RegFormer能够在异质性单细胞数据集中提供准确、可扩展且具有泛化能力的细胞类型注释(图3A)。在Zheng68k数据集中,RegFormer精准重建了精细的免疫景观,有效区分了密切相关的CD4和CD8 T细胞亚群(图3B-C)。在定量分析中,通过更广泛的基因覆盖范围和调控环境整合,RegFormer在所有基准数据集上均实现了最高的宏平均精度,并在不同丰度的细胞类型中保持稳定的预测性能,对稀有细胞群体展现出更强的识别能力。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

图3.RegFormer的细胞类型注释性能。

重建基因调控网络

在基于单细胞基因表达数据重建基因调控网络的能力评估中,RegFormer在人类肺数据集中推断出的基因调控网络比现有单细胞基础模型生成的网络具有更高的功能相似性(图4)。在不同聚类分辨率下,RegFormer均实现了最高的基因本体富集计数,更准确地保留了具有生物学意义的基因相互作用。在多种肺细胞类型中,转录因子表达水平与推断的调控评分之间存在高度一致性。

对比原始与重建基因调控网络,发现重建后的基因调控网络包含更多的调控边,且调控边之间表现出更强的跨细胞类型相关性。功能富集分析表明,重建后的网络能更有效地呈现具有生物学意义的通路,尤其是与免疫激活、形态发生和神经发生相关的通路。以上结果证明,RegFormer能够重建出具有生物学连贯性和功能意义的基因调控网络,为将单细胞基因表达谱与潜在调控机制相联系提供了一个可靠框架。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

图4.RegFormer重建基因调控网络

通过将预训练的基因嵌入与GEARS框架结合,RegFormer能够根据未受扰动的表达谱预测扰动后的表达状态,模拟转录程序如何响应靶向扰动而发生改变。在Adamson和Norman CRISPR扰动数据集上,RegFormer的性能优于scFoundation和scGPT等其他单细胞基础模型。总之,RegFormer能够从静态基因调控网络拓扑结构泛化到动态扰动效应,从而实现对不同扰动情境下转录响应的精确建模。此外,RegFormer还提升了对多种癌细胞系药物反应的预测准确性,并捕捉具有生物学意义的药物敏感性机制。

结语

利用基因调控网络与Mamba架构,RegFormer将生物学先验知识与高效的长序列建模技术相融合,在细胞注释、基因调控网络重构、遗传扰动预测及药物反应建模等关键分析任务中树立了新基准。RegFormer的核心创新在于利用基因调控网络来建模细胞身份形成所必需的层级调控关系,根据基因调控网络引导的拓扑结构对基因进行排序,以具有生物学意义的顺序学习调控关系。研究团队认为,RegFormer的开发标志着scRNA-seq分析领域取得了重大突破,有效解决了数据稀疏性、生物学可解释性及可扩展性等长期存在的难题。未来研究将整合动态调控网络,将该框架扩展至多组学整合,以实现对细胞状态更全面的建模。

原文信息:

Hu, L., Qin, H., Zhang, Y. et al. RegFormer: a single-cell foundation model powered by gene regulatory hierarchies. Nat Commun (2026). https://doi.org/10.1038/s41467-026-72198-x

01

02

03

04

05

快点亮"在看”吧!