单细胞转录组学通过在单个细胞层面解析基因表达,能够揭示细胞间的异质性,为稀有细胞群鉴定、细胞间互作分析和基因调控研究提供核心支撑,是推动精准医学、药物研发与细胞多样性研究的核心工具。近年来,基于自注意力机制的基础模型通过自监督学习预训练,在单细胞转录组数据分析中展现出巨大潜力,能捕捉复杂的基因表达模式,适配多种下游任务。
尽管现有模型仍存在显著局限,大多数模型为降低计算成本,仅对少量高表达基因进行自注意力运算,忽略了大量具有低表达基因的关键调控作用,无法捕捉全基因组尺度的基因互作与调控信号;同时模型缺乏对基因特异性外部功能知识的整合,仅依赖表达数据建模,限制了对复杂细胞功能与基因调控网络的全面理解,进而制约了模型对单细胞数据的深度挖掘与精准解析能力。
为解决上述难题,阿联酋穆罕默德·本·扎耶德人工智能大学(MBZUAI)的Eric Xing、谢澎涛团队开发了新型单细胞转录组基础模型scLong,其基于4,800万个细胞预训练,共包含10亿参数。scLong能够对整个人类基因组中约28,000个基因进行自注意力运算,完整捕捉所有基因间的长程互作与依赖关系,包括低表达与未表达基因,构建无偏倚、全面的基因调控网络。其次,scLong创造性地利用图卷积网络整合来自基因本体论(GO)的外部基因知识,增强对基因功能及关联的上下文理解,提升了复杂场景下的预测能力。经评估验证,scLong在基因和化学扰动转录反应预测、癌症药物反应预测等多项关键下游任务中表现出卓越性能,显著优于现有SOTA基础模型和特定任务模型。总之,scLong有效突破了现有局限,为单细胞转录组数据的深度挖掘与功能解析提供了更强大、更全面的新工具。
文章发表在
Nature Communications
scLong由基因编码器、表达编码器和上下文编码器三大模块构成。表达编码器为多层感知器(MLP),负责将单个基因的表达标量值转化为表征向量;基因编码器则基于GO构建基因功能关系图谱,并通过图卷积网络(GCN)提取基因的功能表征向量;然后将基因表征与表达表征向量融合,形成每个基因-表达元素的初始表征,输入上下文编码器,通过自注意力机制捕获全基因范围基因长程关系。
为平衡计算效率与表示质量,scLong引入分级Performer编码器结构:先将基因按表达水平分为高、低表达两组,再经大小不同的Performer编码器进行分别处理,最后由统一的全长Performer编码器进行集成。其中,高表达基因由层数和参数更多的大编码器建模,以捕捉核心生物学信息与复杂互作;低表达基因由小编码器解析,在保留信息的前提下提升计算效率。
预训练阶段,scLong采用掩码基因表达重建策略,预训练数据集涵盖4,800万个人类细胞、27,874个基因,包括20,000个蛋白编码基因和8,000个非编码基因,覆盖超50种人体组织。
图1.scLong模型
接下来,研究团队在多项关键下游任务中对scLong进行了系统评估。
在基因扰动转录结果预测任务中,研究团队使用Norman数据集(含5,045基因、236种扰动条件),在4种泛化场景中将scLong与7种模型进行对比,包括Geneformer、scGPT等4个基础模型和GEARS、ALM等2个特定任务模型。结果显示,scLong在Pearson相关系数、MSE等评估指标上均显著优于其他模型,在各种测试场景中表现优异;在训练集未出现的扰动场景中表现尤其突出,Pearson相关系数达0.625,显示出强大的泛化能力。
在识别双基因扰动的协同或抑制相互作用类型时,scLong预测结果与真实值的相关性更高、分类一致性更好,识别精度更高。此外,scLong预测误差因基因调控强度而异,整体误差模式符合生物学规律。
图2. scLong预测基因扰动引起的转录结果
在化学扰动转录结果预测任务中,研究团队利用包含7种细胞系、978基因、810种化合物的L1000数据集对scLong进行测试。在RMSE、前100基因预测精度等多项指标上,scLong模型均显著优于现有基础模型与特定任务模型DeepCE,且统计检验显示差异具有显著性。这证实该模型在药物发现场景中具有高精度的转录结果推断能力,为高通量药物筛选和机制研究提供了更精准的计算工具。
图3.scLong在预测化学扰动引起的转录结果
癌症药物反应预测也是scLong的重要应用方向,通过精准预测药物反应,科研人员可以加速药物发现、制定个性化治疗方案,提高治疗效果并减少不良反应。在单药反应预测任务(DeepCDR数据集)中,scLong预测的半数抑制浓度(IC50)值与实验测定值间的Pearson相关性达0.878;在联合用药反应预测任务(阿斯利康药物组合数据集)中,scLong的AUROC达0.652,均显著高于其他对比模型,并表现出强泛化能力。
图4. scLong预测癌症药物反应
在基因调控网络推断任务中,研究团队使用来自758个人胚胎干细胞的基因表达数据(涵盖17,735个基因)对scLong进行评估,以精确率-召回率曲线下面积(AUPR)和早期精确率比(EPR)为评估指标。结果显示,scLong的两项指标均最高,其中AUPR达1.35,显著优于主流基础模型以及DeepSEM、GENIE3等特定任务模型,表明该模型能有效捕获基因间相互作用,为基因调控机制研究提供了可靠工具。
图5.scLong推断基因调控网络推断
单细胞数据普遍存在批次效应,会干扰真实生物学信号。为此,研究团队利用未经训练的胰腺数据集评估了scLong模型的零样本批次整合能力,包含6个批次、1.6万余个细胞。相较原始数据、高变基因筛选法(HVG)、专用整合方法scVI及其他模型,scLong的批次平均轮廓宽度(ASW_batch)评分最高,为0.96,证明其可在零样本条件下有效抑制技术批次效应,同时保留真实的生物学差异,具备优异的跨数据集泛化与数据整合能力。
图6. scLong实现零样本批次整合
最后,研究通过核心消融实验,验证了scLong模型中建模低表达基因和整合基因本体图谱两项关键设计的必要性。在基因扰动转录结果预测、基因调控网络推断、批次整合等下游任务测试中,完整的scLong模型在绝大多数情况下均显著优于去除低表达基因、随机化低表达基因处理模块、去除GO图谱或使用随机图谱替代GO图谱的变体模型。此外,基于Zheng68K 数据集的实验表明,scLong能将不同细胞类型的标记基因精准聚类,与非标记基因清晰区分,有效捕捉细胞类型特异性的基因共表达模式。
综上所述,scLong突破了现有单细胞转录组基础模型的核心局限,首次实现全基因组范围的基因自注意力分析,并整合基因功能先验知识,大幅提升了多类下游分析任务的性能,为解析基因长距离互作、挖掘低表达基因的调控功能提供了新手段,也为精准医学、药物发现与细胞生物学研究提供了更强大的计算工具。
https://www.nature.com/articles/s41467-026-69102-y
01
02
03
04
05
快点亮"在看”吧!
热门跟贴