撰文丨Enigma
单细胞 转录组 技术极大推动了细胞多样性解析,但在生命之树尺度开展跨物种转录程序比较仍面临关键瓶颈 。传统整合分析高度依赖直系同源基因匹配,远缘物种间同源基因数量有限,难以支撑大范围比较。现有单细胞基础模型多不具备生成能力,需针对任务微调,且多数仅适用于人或小鼠等少数物种,无法覆盖漫长演化历程中细胞特征的保守性与变异性。
近 日,Chan Zuckerberg Initiative与斯坦福大学Stephen R. Quake、TheofanisKaraletsos团队在Science发表题为TranscriptFormer: A generative cell atlas across 1.5 billion years of evolution的研究。研究团队开发出TranscriptFormer ,一套在 1.12 亿个细胞上训练、覆盖 12 个物种、横跨 15.3 亿年进化史的生成式单细胞基础模型 ,在跨物种细胞类型分类、零样本疾病状态识别、发育轨迹推演、系统发育关系解析等任务上实现领先性能,证明细胞组织的通用原理可被AI跨物种学习与预测,为定量单细胞分析与比较细胞生物学建立了全新框架。
TranscriptFormer 采用生成式自回归 Transformer 结构,将细胞 转录组视为 连续的基因序列,依次预测基因身份与表达水平,联合建模基因与表达计数的概率分布。研究构建了三种演化覆盖梯度的模型, TF ‑ Metazoa 包含脊椎动物、无脊椎动物、真菌与原生生物共 12 个物种,覆盖 15.3 亿年演化; TF ‑ Exemplar 包含人与四种模式生物; TF ‑ Sapiens 仅以人细胞作为对照。模型核心改进包括表达量感知的多头自注意力机制,可依据表达强度动态调整基因贡献;整合 ESM ‑ 2 蛋白嵌入实现跨物种统一基因表示,摆脱直系同源基因依赖;设置基因预测与 表达计数双解 码分支,同步输出细胞嵌入与上下文基因嵌入,支持条件化生成与虚拟生物学分析。
在跨远缘物种细胞类型分类测试中,研究团队选用模型从未见过的狐猴、热带爪 蟾 、七鳃鳗、石珊瑚进行评估。结果显示, TF- Metazoa 和 TF-Exemplar 在与人类分化 6.85 亿年的石珊瑚上仍保持 F1>0.65 的稳定表现,显著优于当前主流模型 UCE 和基线模型 ESM2-CE ,充分证明多物种 预训练 能够大幅提升跨超大进化距离的泛化能力。在跨物种注释迁移任务中,模型在精子发生、灵长类前额叶皮层、LPS诱导炎症免疫应答等多个系统中均表现出色,近缘物种间注释迁移准确率高,远缘物种之间也能保持可靠预测,清晰呈现出保守的转录响应模式。
在人类细胞状态预测方面, TranscriptFormer 同样表现突出。在 Tabula Sapiens 2.0 细胞类型分类任务中, TF-Exemplar 达到 0.910 的宏观 F1 值, 在髓系白细胞 、 T 细胞、固有淋巴细胞等难以区分的细胞类型上优势明显。在疾病状态识别中,针对新冠感染和胶质母细胞瘤的预测精度全面超越 scGPT 、 Geneformer 等模型。在药物扰动检测中,模型在 95 种化合物测试中平均 AUC 达到 0.879 ,多项药物接近完美分类,能够精准捕捉药物引发的细微转录变化。
TranscriptFormer在无任何细胞类型、发育阶段、进化关系标注的情况下,能够自发涌现出多层次的生物学结构。上下文基因嵌入显示细胞类型信息贡献超过 95% 的方差,同时保留组织和个体供体差异。细胞嵌入能够准确重现精子发生的分化轨迹,物种间的嵌入相似度与进化距离呈现强相关性。跨物种细胞匹配结果显示,斑马鱼、爪 蟾 、 兔之间 保守匹配神经元、内皮、免疫、造血等关键细胞谱系;海绵领细胞对应到两侧对称动物的初级感觉神经元,为神经系统起源假说提供支持;酵母细 胞状态与多种动物胚胎祖细胞高度相似,提示跨界存在保守的祖细胞程序。
依托生成式能力, TranscriptFormer 还可作为“虚拟生物学仪器”使用。通过点互信息计算,模型能够准确预测转录因子与靶基因的相互作用,结果与经典数据库高度吻合。在细胞类型条件生成任务中,模型重现了人类 112 种细胞类型的转录因子表达谱,呈现出广谱调控因子的垂直分布带和细胞类型特异因子的对角线特征,与实验观测结果高度一致。
这项研究以大模型、大进化尺度、大细胞数据集三位一体,首次证明生成式AI可以直接捕捉生命共通的细胞组织原理,不依赖同源基因即可实现跨15亿年进化的单细胞统一分析,既是单细胞组学与人工智能交叉领域的里程碑,也为比较生物学、进化发育生物学、系统医学提供了统一的数字细胞框架。TranscriptFormer 的出现,标志着单细胞基础模型正式进入跨物种、生成式、可交互的全新阶段,未来在扩充物种覆盖、融合多组学模态、优化提示策略后,有望构建覆盖全生命之树的单细胞生成模型,为病毒宿主研究、药物开发、进化机制解析提供更强力的工具。
研究同时存在一定局限,模型在批次效应整合、零样本扰动预测方面仍有提升空间,未来需要进一步优化数据整合策略 并拓展功能边界。
原文链接:https://www.science.org/doi/10.1126/science.aec8514
制版人: 十一
学术合作组织
(*排名不分先后)
战略合作伙伴
(*排名不分先后)
转载须知
【原创文章】BioArt原创文章,欢迎个人转发分享,未经允许禁止转载,所刊登的所有作品的著作权均为BioArt所拥有。BioArt保留所有法定权利,违者必究。
BioArt
Med
Plants
人才招聘
点击主页推荐活动
关注更多最新活动!
热门跟贴