包含10亿参数！谢澎涛等团队开发全新单细胞转录组学基础模型scLong，可实现全基因组范围基因上下文捕获|上下文|互作|细胞转录组|谢澎涛

单细胞转录组学通过在单个细胞层面解析基因表达，能够揭示细胞间的异质性，为稀有细胞群鉴定、细胞间互作分析和基因调控研究提供核心支撑，是推动精准医学、药物研发与细胞多样性研究的核心工具。近年来，基于自注意力机制的基础模型通过自监督学习预训练，在单细胞转录组数据分析中展现出巨大潜力，能捕捉复杂的基因表达模式，适配多种下游任务。

尽管现有模型仍存在显著局限，大多数模型为降低计算成本，仅对少量高表达基因进行自注意力运算，忽略了大量具有低表达基因的关键调控作用，无法捕捉全基因组尺度的基因互作与调控信号；同时模型缺乏对基因特异性外部功能知识的整合，仅依赖表达数据建模，限制了对复杂细胞功能与基因调控网络的全面理解，进而制约了模型对单细胞数据的深度挖掘与精准解析能力。

为解决上述难题，阿联酋穆罕默德·本·扎耶德人工智能大学（MBZUAI）的Eric Xing、谢澎涛团队开发了新型单细胞转录组基础模型scLong，其基于4,800万个细胞预训练，共包含10亿参数。scLong能够对整个人类基因组中约28,000个基因进行自注意力运算，完整捕捉所有基因间的长程互作与依赖关系，包括低表达与未表达基因，构建无偏倚、全面的基因调控网络。其次，scLong创造性地利用图卷积网络整合来自基因本体论（GO）的外部基因知识，增强对基因功能及关联的上下文理解，提升了复杂场景下的预测能力。经评估验证，scLong在基因和化学扰动转录反应预测、癌症药物反应预测等多项关键下游任务中表现出卓越性能，显著优于现有SOTA基础模型和特定任务模型。总之，scLong有效突破了现有局限，为单细胞转录组数据的深度挖掘与功能解析提供了更强大、更全面的新工具。

文章发表在

Nature Communications

scLong由基因编码器、表达编码器和上下文编码器三大模块构成。表达编码器为多层感知器（MLP），负责将单个基因的表达标量值转化为表征向量；基因编码器则基于GO构建基因功能关系图谱，并通过图卷积网络（GCN）提取基因的功能表征向量；然后将基因表征与表达表征向量融合，形成每个基因-表达元素的初始表征，输入上下文编码器，通过自注意力机制捕获全基因范围基因长程关系。

为平衡计算效率与表示质量，scLong引入分级Performer编码器结构：先将基因按表达水平分为高、低表达两组，再经大小不同的Performer编码器进行分别处理，最后由统一的全长Performer编码器进行集成。其中，高表达基因由层数和参数更多的大编码器建模，以捕捉核心生物学信息与复杂互作；低表达基因由小编码器解析，在保留信息的前提下提升计算效率。

预训练阶段，scLong采用掩码基因表达重建策略，预训练数据集涵盖4,800万个人类细胞、27,874个基因，包括20,000个蛋白编码基因和8,000个非编码基因，覆盖超50种人体组织。

图1.scLong模型

接下来，研究团队在多项关键下游任务中对scLong进行了系统评估。

在基因扰动转录结果预测任务中，研究团队使用Norman数据集（含5,045基因、236种扰动条件），在4种泛化场景中将scLong与7种模型进行对比，包括Geneformer、scGPT等4个基础模型和GEARS、ALM等2个特定任务模型。结果显示，scLong在Pearson相关系数、MSE等评估指标上均显著优于其他模型，在各种测试场景中表现优异；在训练集未出现的扰动场景中表现尤其突出，Pearson相关系数达0.625，显示出强大的泛化能力。

在识别双基因扰动的协同或抑制相互作用类型时，scLong预测结果与真实值的相关性更高、分类一致性更好，识别精度更高。此外，scLong预测误差因基因调控强度而异，整体误差模式符合生物学规律。

图2. scLong预测基因扰动引起的转录结果

在化学扰动转录结果预测任务中，研究团队利用包含7种细胞系、978基因、810种化合物的L1000数据集对scLong进行测试。在RMSE、前100基因预测精度等多项指标上，scLong模型均显著优于现有基础模型与特定任务模型DeepCE，且统计检验显示差异具有显著性。这证实该模型在药物发现场景中具有高精度的转录结果推断能力，为高通量药物筛选和机制研究提供了更精准的计算工具。

图3.scLong在预测化学扰动引起的转录结果

癌症药物反应预测也是scLong的重要应用方向，通过精准预测药物反应，科研人员可以加速药物发现、制定个性化治疗方案，提高治疗效果并减少不良反应。在单药反应预测任务（DeepCDR数据集）中，scLong预测的半数抑制浓度（IC50）值与实验测定值间的Pearson相关性达0.878；在联合用药反应预测任务（阿斯利康药物组合数据集）中，scLong的AUROC达0.652，均显著高于其他对比模型，并表现出强泛化能力。

图4. scLong预测癌症药物反应

在基因调控网络推断任务中，研究团队使用来自758个人胚胎干细胞的基因表达数据（涵盖17,735个基因）对scLong进行评估，以精确率-召回率曲线下面积（AUPR）和早期精确率比（EPR）为评估指标。结果显示，scLong的两项指标均最高，其中AUPR达1.35，显著优于主流基础模型以及DeepSEM、GENIE3等特定任务模型，表明该模型能有效捕获基因间相互作用，为基因调控机制研究提供了可靠工具。

图5.scLong推断基因调控网络推断

单细胞数据普遍存在批次效应，会干扰真实生物学信号。为此，研究团队利用未经训练的胰腺数据集评估了scLong模型的零样本批次整合能力，包含6个批次、1.6万余个细胞。相较原始数据、高变基因筛选法（HVG）、专用整合方法scVI及其他模型，scLong的批次平均轮廓宽度（ASW_batch）评分最高，为0.96，证明其可在零样本条件下有效抑制技术批次效应，同时保留真实的生物学差异，具备优异的跨数据集泛化与数据整合能力。

图6. scLong实现零样本批次整合

最后，研究通过核心消融实验，验证了scLong模型中建模低表达基因和整合基因本体图谱两项关键设计的必要性。在基因扰动转录结果预测、基因调控网络推断、批次整合等下游任务测试中，完整的scLong模型在绝大多数情况下均显著优于去除低表达基因、随机化低表达基因处理模块、去除GO图谱或使用随机图谱替代GO图谱的变体模型。此外，基于Zheng68K 数据集的实验表明，scLong能将不同细胞类型的标记基因精准聚类，与非标记基因清晰区分，有效捕捉细胞类型特异性的基因共表达模式。

综上所述，scLong突破了现有单细胞转录组基础模型的核心局限，首次实现全基因组范围的基因自注意力分析，并整合基因功能先验知识，大幅提升了多类下游分析任务的性能，为解析基因长距离互作、挖掘低表达基因的调控功能提供了新手段，也为精准医学、药物发现与细胞生物学研究提供了更强大的计算工具。

https://www.nature.com/articles/s41467-026-69102-y

快点亮"在看”吧！