打开网易新闻 查看精彩图片

空间转录组学 ( ST ) 能够在保留组织空间信息的同时分析基因表达,从而揭示由基因功能相互作用形成的 “ 空间基因组上下文 ( spatial genomic contexts ) ” 。 这种上下文体现为基因间空间表达模式的关联性 ,为理解特定生物过程和疾病发展背后的分子调控机制提供了关键线索。 同时, 这类基因组上下文还允许我们将基因表示为潜在流形 ( latent manifolds ) ,这类似于语言模型从词语上下文中学习词语表示的过程。然而,如何从 ST 数据中有效、低成本地学习能够融合空间信息的基因表征,仍然是一个亟待解决的核心难题。

为 应对这些挑战,近日 ,埃默里大学孙晓波教授团队在 Genome Biology 上发表了文章SIGEL: a context-aware genomic representation learning framework for spatial genomics analysis提出了基于自监督学习的空间信息基因表征模型SIGEL模型通过创新的掩码图像策略对比学习(semi-contrastive learning),高效地从空间上下文中学习基因的深层语义,在缺失基因补、空间模式识别、疾病基因发现、空间变异基因检测等多个关键任务获得卓越表现,开创了空间基因组学数据分析与挖掘的新范式。

打开网易新闻 查看精彩图片

SIGEL 的核心思想(图1A是:功能相关的基因在组织中往往呈现相似的空间表达模式, 从而构成类似自然语言中 “ 词语上下文 ” 的 “ 空间基因组上下文 ” 。我们借助自监督学习,从 ST 数据中捕捉这种空间邻近性,以数据驱动的方式同时识别基因组上下文并学习语义表征,为下游分析提供支持。方法框架如图 1B ,主要包含三个模块。模块 I 中,我们构建了改进的掩码自编码器 ( MAE ) ,将基因图像转化为符合多元 Student’s t 分布混合的表征 ,即 SGRs 。通过从周围上下文重建被掩盖的图像块,模型获得局部上下文感知能力。模块 II 中, SGRs 中被建模为 Student’s t 混合模型 ( SMM ) ,其中每个混合成分代表一个包含空间共表达基因的上下文。 SMM 参数通过 MAP-EM 算法估计,并为每个基因计算到各混合成分的软分配。模块 III 进一步引入 半 对比学习,以增强对不同空间表达模式的判别能力并捕捉复杂语义关系。具体而言,训练过程采用两个损失函数与 L1 与 L2 。首先, L1 通过最大化对数似然更新 MAE 权重,同时利用正则化约束控制簇大小不均衡;随后, L2 在连续批次中进一步优化 表征 和 SMM 参数,将相似基因拉近、相异基因分离。整体训练过程在模块 II 和 III 之间交替进行,直至达到预定轮次数或基因分配变化低于阈值。

打开网易新闻 查看精彩图片

本文 系统性评估了 SIGEL 的有效性与应用价值 。首先 展示了 SIGEL 在识别具有空间共表达模式的基因群方面的能力,并通过证明其生物学相关性来证实这些基因 簇 作为基因组上下文的合理性。此外, 本文 对 SGRs 的功能和关系语义进行了严格的验证。特别地, 本文 证明了 SGRs 对技术差异的稳健性及其在跨样本基因对齐和比较中的实用性。其次, 本文 展示了 SIGEL 和 SGRs 在关键下游任务中的应用价值: i )不受批次效应影响地稳健识别多样本中的疾病相关基因和基因串扰; ii )对基于 FISH 的 ST 数据进行从头 ( de novo ) 插补以扩展其转录组覆盖范围,解决了长期以来限制此类数据广泛应用的挑战; iii )精准定位组织中具有特定空间表达模式的基因; iv )检测空间变异基因( SVGs ); v )改进空间聚类。广泛的真实数据分析表明, SGRs 或为一些先前未被充分解决的挑战 (如前三项任务) 提供了最优解,或在任务 iv 和 v 中表现优于既有的基准方法。这些结果凸显了 SIGEL 在建立基于 “ 基因语言 ” 的 方法学框架 方面的潜力。

香港中文大学(深圳)数据科学学院 2025 级博士生黎文林为本文第一作者, 埃默里 大学人类遗传学系助理教授孙晓波为 本文 最后通讯作者,深圳理工大学 计算机科学与控制工程学院 杰出教授吴浩为本文共同通讯作者, 其他作者包括:朱茂铖 、许宇澄、黄梦倩、 王梓奕 和陈兢。

原文链接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-025-03748-7

制版人:十一

BioArt

Med

Plants

人才招聘

学术合作组织

(*排名不分先后)

打开网易新闻 查看精彩图片

战略合作伙伴

(*排名不分先后)

转载须知

【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。