编辑丨%
细胞拥有一个很复杂的结构,而一条来自细胞状态信息往往可以通过不同的测量技术捕获——例如 RNA 表达、染色质可达性、蛋白质丰度甚至图像形态等。每种技术都提供不同视角的数据,但这些数据往往被分开分析或者被简单融合成一个统一表示,难以判定到底哪些信息是不同技术之间共享的,哪些是某种技术特有的。
即便机器学习能加速这一进程,在捕捉细胞完整信息的时候,由于所得信息是合并后的,它们对应的细胞部分也就变得不明确。
MIT、哈佛大学与苏黎世联邦理工学院/保罗·谢勒研究所(PSI)的研究团队提出了一种名为APOLLO的新框架,该框架利用可解释性多模态嵌入模型,从而自动识别哪些信息是不同测量技术所共有、哪些是某一模态独有的。
相关的研究以「Partially shared multi-modal embedding learns holistic representation of cell state」为题,于 2026 年 2 月 25 日发表在《Nature Computational Science》。
论文链接:https://www.nature.com/articles/s43588-025-00948-w
APOLLO
研究中,学者向来使用多种工具来捕捉细胞状态的信息。例如,他们可以测量 RNA 以判断细胞是否在生长,或者测量染色质形态以判断细胞是否在处理外部的物理或化学信号。
对于前文中所叙述的,不同技术所得信息的独立性与重叠性,APOLLO 的设计巧妙地解决了这一问题。它将学习的潜空间明确地划分为三部分:
- 共享潜空间 (Shared Latent Space):捕捉所有模态(如 RNA 和 ATAC)共有的细胞状态信息。
- 模态特有潜空间 (Modality-Specific Latent Space):为每一种模态(如一个用于 RNA,一个用于 ATAC)单独设立,捕捉仅能被该技术测量到的、独特的细胞状态信息。
- 两步训练法:通过「潜空间优化」和「编码器训练」两个步骤,确保模型能准确地将信息分配到各自所属的空间。
图 1:APOLLO 在部分共享多模态嵌入和跨模态预测中的概述。
这种训练策略既保证了共享信息的准确捕捉,也使得不同测量模态的特异性信息不会被统一混合,从而更好地解耦信息来源。
从模拟到真实
在模拟数据集上,APOLLO 能够准确识别已知的共享结构与特异性结构,说明它不仅能整合数据,还能正确分离不同来源的信息。
在真实数据测试中,团队应用了常见的多模态单细胞测量组合,例如:
SHARE-seq 数据 (RNA+ATAC):在小鼠细胞的SHARE-seq数据上,APOLLO学习到的RNA特有空间捕获了细胞周期相关基因,而ATAC特有空间则富集了转录调控因子的启动子活性。通过主成分分析和基因本体富集分析,研究团队能清晰地将这些生物学意义「追溯」到不同的潜空间,证实了模型解耦的有效性。
CITE-seq 数据 (RNA+表面蛋白):在小鼠脾脏和淋巴结的CITE-seq数据中,APOLLO的表现堪称完美。共享潜空间完美地分离了不同的细胞类型,而实验批次效应则被干净利落地「赶」到了RNA的特有潜空间中。相比之下,Seurat的WNN方法和标准多模态自编码器,其整合后的空间仍混杂着细胞类型和批次信息,无法实现如此清晰的分离。
图 2:用于识别配 scRNA-seq 和 scATAC-seq 数据中共享信息和模态特异性信息的 APOLLO。
除了这些,APOLLO 还能利用学到的解耦信息,进行预测并产生生物学新洞见。比如,它能准确区分共享信息与模态特异性成分,还能够用于跨模态预测。例如,通过已测量的染色质图像信息预测尚未测量的蛋白质信号,这对于资源受限且难以进行全面单细胞测量的实验非常有价值。
图 3:染色质组织和蛋白质定位的 APOLLO 共享潜空间和模态特异性潜空间中可解释的形态特征。
也许是全息的细胞生物学
APOLLO 代表了一种从「信息融合」到「信息解耦」的范式转变。通过显式地建模并分离共享与模态特有的信息,它赋予研究者前所未有的解释性和洞察力。
这种分离潜空间的技术,在临床应用中具有重要意义:它可以帮助研究人员明确哪种测量技术包含对特定生物现象最关键的信息,从而减少不必要的实验、优化测量策略,并加速对复杂细胞状态的理解,特别是在癌症、神经退行性疾病、代谢疾病等领域的机制研究与临床评估。
相关链接:https://phys.org/news/2026-02-cell-ai-tool-bigger-picture.html
https://news.mit.edu/2026/ai-help-researchers-see-bigger-picture-cell-biology-0225
热门跟贴