随着 单细胞 和空间组 学 技术 的 快速 发展, 公开可共享 数据量已突破亿级大关。 然而,技术平台 产生的 差异、复杂疾病状态以及跨物种研究带来的批次效应和离群细胞( Out-of-Distribution Cell , OOD 细胞), 对数据解读 构成巨大挑战。面对动辄百万规模的 OOD 细胞,依赖 “ 先聚类、后注释 ” 的传统分析方法已显力不从心,难以快速、精准且可解释地将这些 “ 身份不明 ” 的细胞映射到日益完善的参考细胞图谱上。如何 高效 实现细胞的数字化表征、整合与解析,已成为一个关键瓶颈,严重制约着单细胞数据在跨大规模人群队列研究、多模态信息整合以及物种间保守性探索等核心方向上潜力的释放。

近日,国家生物信息中心计算生物学部蒋岚团队在Genome Biology期刊发表了题为CellMemory: hierarchical interpretation of out-of-distribution cells using bottlenecked transformer的研究论文 ,研发了一款高效、泛化可解释有监督细胞表征解析模型CellMemory

该模型 受全局工作空间理论( Global Workspace Theory, GWT )启发, 对 传统 Transformer 架构 进行改造, 植入 低维 记忆 空间 “ Memory Space ” , 通过 Cross-Attention 机制将高维基因特征压缩 、 竞争 、 广播 , 提高 计算 效率 3-5 倍 ,显著 增强 模型泛化 能力 ,无需预训练即可实现单细胞数据跨平台、物种整合 。 同时, 记忆空间为 CellMemory 带来分层式“可读窗口” 。 L1 (Gene Level): 面对特定细胞,研究者可知 单个基因 对 目标 细胞表征的 贡献 分数; L2 (Gene Program Level ) : 模型在 记忆空间中 , 自动 归纳 协调 的共表达 /共调控模式 。 多层可解释性为理解模型决策逻辑,探索 表型关联 细胞状态提供了 可靠解决方案 ,即“高准确性 + 强可解释性” 。

研究团队将 CellMemory 与 3个单细胞基础大模型、16 个任务专用模型在一千五百万细胞上进行比较。 基准评测 结果显示, CellMemory 在人群尺度的单细胞数据整合、 超 高分辨率细胞状态注释等任务 中均取得了 State-of-the-Art 级别的表现。 面对 59 张 MERFISH小鼠脑 空间 组学 切片 ( 4 百万细胞、 338 个细胞亚群 ), 相较 基 于 传统 transformer架构预训练的 单细胞基础大模型, CellMemory 在 95% 的 空间 切片上取得 领先 的注释 表现, 准确率 较 传统 机器学习方法提升 30% , 证明 CellMemory 出色的泛化能力 。

当前,将疾病细胞与健康细胞比对仍然是巨大挑战。 得益于准确与可解释的细胞表征 , 研究团队进一步利用 CellMemory 在多 个 癌症 队列单细胞图谱 中解析疾病 复杂性 。例如在肺腺癌队列中,模型基于参考图谱定位到 MSLN+ CAPN8+ 的肺泡 2型过渡态细胞,并观测到其显著的拷贝数变异,提示肺腺癌可能利用肺泡2型细胞可塑性获得侵袭能力 。 在混合表型急性白血病、髓母细胞瘤等数据中,模型 基于健康参考图谱 揭示了不同患者潜在的异质性起源,为耐药和预后研究提供了高分辨率 数据解析基础 。展示出 CellMemory 在 离群 细胞推断场景中的 强大表征 能力。

综上, 从 “序列 搜索 ”到“ 亚群搜索 ” , 参考映射 正在重塑单细胞数据分析的技术范式 。 凭借 强大的泛化能力与 高效的计算效率, CellMemory 有望成为 覆盖病理、时空和物种等多维度细胞参考图谱 建设与临床精准诊疗的关键引擎。

C ellMemory 模型架构与应用场景

上述工作由国家生物信息中心蒋岚团队和多家单位合作完成。蒋岚研究员、新加坡国立大学刘钿渤教授、 加拿大 麦吉尔大学李岳教授为本文的共同通讯作者。蒋岚团队博士研究生王弃非, 加拿大 麦吉尔大学博士生朱赫为文章的并列第一作者。 清华大学张学工、斯坦福大学 James Zou , 博德研究所 Manolis Kellis 教授 对本项目也有贡献。

原文链接:https://doi.org/10.1186/s13059-025-03638-y

专家点评

赵屹( 中科院计算所)

当前单细胞与空间组学面临两大挑战,海量异构数据下传统方法难以解析跨技术平台、跨病理状态、跨物种的批次效应与离群细胞,现有算法依赖预训练且可解释性薄弱制约临床转化。 CellMemory 通过底层架构的原创设计, 解决规模化数据整合痛点,为AI赋能生物医学研究树立新标杆。该团队未简单调用传统Transformer架构,而是创造性地引入瓶颈层,通过压缩、竞争、广播机制实现基因特征降维。这一改造使得模型训练成本节省80%以上,并显著增强泛化能力,使其无需预训练即可支撑跨物种、跨模态整合,并高效实现疾病细胞与健康细胞的精准比对。其分层可解释架构从基因层到通路层揭示模型决策的生物学逻辑,成功定位肺腺癌中MSLN+ CAPN8+肺泡2型过渡态细胞等疾病起源谱系。这种轻量化适配生物学复杂性的设计哲学,既规避算力堆砌陷阱,又为探究疾病细胞异质性起源提供了高分辨率解析基础。 CellMemory 通过生物启发式架构革新单细胞分析范式,其融合计算科学与生命机理的跨界探索,为疾病机制解析提供了全新视角。

制版人:十一

BioArt

Med

Plants

人才招聘

学术合作组织

(*排名不分先后)

战略合作伙伴

(*排名不分先后)

转载须知

【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。