MIT等为单细胞多模态数据打造信息分离器，宏观视角还原细胞状态|mit|rna|信息分离器|染色质|模态|特异性|细胞

编辑丨%

细胞拥有一个很复杂的结构，而一条来自细胞状态信息往往可以通过不同的测量技术捕获——例如 RNA 表达、染色质可达性、蛋白质丰度甚至图像形态等。每种技术都提供不同视角的数据，但这些数据往往被分开分析或者被简单融合成一个统一表示，难以判定到底哪些信息是不同技术之间共享的，哪些是某种技术特有的。

即便机器学习能加速这一进程，在捕捉细胞完整信息的时候，由于所得信息是合并后的，它们对应的细胞部分也就变得不明确。

MIT、哈佛大学与苏黎世联邦理工学院/保罗·谢勒研究所（PSI）的研究团队提出了一种名为APOLLO的新框架，该框架利用可解释性多模态嵌入模型，从而自动识别哪些信息是不同测量技术所共有、哪些是某一模态独有的。

相关的研究以「Partially shared multi-modal embedding learns holistic representation of cell state」为题，于 2026 年 2 月 25 日发表在《Nature Computational Science》。

论文链接：https://www.nature.com/articles/s43588-025-00948-w

APOLLO

研究中，学者向来使用多种工具来捕捉细胞状态的信息。例如，他们可以测量 RNA 以判断细胞是否在生长，或者测量染色质形态以判断细胞是否在处理外部的物理或化学信号。

对于前文中所叙述的，不同技术所得信息的独立性与重叠性，APOLLO 的设计巧妙地解决了这一问题。它将学习的潜空间明确地划分为三部分：

共享潜空间 (Shared Latent Space)：捕捉所有模态（如 RNA 和 ATAC）共有的细胞状态信息。
模态特有潜空间 (Modality-Specific Latent Space)：为每一种模态（如一个用于 RNA，一个用于 ATAC）单独设立，捕捉仅能被该技术测量到的、独特的细胞状态信息。
两步训练法：通过「潜空间优化」和「编码器训练」两个步骤，确保模型能准确地将信息分配到各自所属的空间。

图 1：APOLLO 在部分共享多模态嵌入和跨模态预测中的概述。

这种训练策略既保证了共享信息的准确捕捉，也使得不同测量模态的特异性信息不会被统一混合，从而更好地解耦信息来源。

从模拟到真实

在模拟数据集上，APOLLO 能够准确识别已知的共享结构与特异性结构，说明它不仅能整合数据，还能正确分离不同来源的信息。

在真实数据测试中，团队应用了常见的多模态单细胞测量组合，例如：

SHARE-seq 数据 (RNA+ATAC)：在小鼠细胞的SHARE-seq数据上，APOLLO学习到的RNA特有空间捕获了细胞周期相关基因，而ATAC特有空间则富集了转录调控因子的启动子活性。通过主成分分析和基因本体富集分析，研究团队能清晰地将这些生物学意义「追溯」到不同的潜空间，证实了模型解耦的有效性。

CITE-seq 数据 (RNA+表面蛋白)：在小鼠脾脏和淋巴结的CITE-seq数据中，APOLLO的表现堪称完美。共享潜空间完美地分离了不同的细胞类型，而实验批次效应则被干净利落地「赶」到了RNA的特有潜空间中。相比之下，Seurat的WNN方法和标准多模态自编码器，其整合后的空间仍混杂着细胞类型和批次信息，无法实现如此清晰的分离。