2024年Nature Communications计算生物学亮点论文评述（3）——空间组学算法建模与应用|亚细胞|形态学|生物学|算法|组学|转录组

【编者按】：在第一篇总述（）中，我们回顾了《自然通讯》杂志计算生物学方法亮点论文，展望了未来的领域发展。上篇（）我们利用四篇例文，回顾了单细胞组学分析的算法应用。本篇将会把重点放在空间组学数据建模上，系统介绍空间组学的领域现状，亮点文章与前景方向。

（一）总述

空间组学技术进入了高速发展时期，越来越受到生命科学领域研究人员的重视。2016 年，斯德哥尔摩皇家理工学院的 Joakim Lundeberg 团队成功从完整的组织切片中提取出转录组学信息，此后空间转录组学技术开始受到科学家青睐。2019年，Nature Reviews Genetics杂志发表了题为“Spatial transcriptomics coming of age”的文章，正式拉开空间转录组测序的序幕。2021年，Nature Methods杂志将空间转录组测序评为2020年度技术。2022 年，Nature将空间组学列入”2022 年度值得关注的七大生物技术榜单“。2023年，单细胞代谢组学被Nature评为2023年值得关注的7项技术之一；空间组学技术成为世界经济论坛发布的2023年十大新兴技术之一，且再一次被Nature Methods杂志评为2023年度最值得关注技术之一。2024年，空间蛋白组学被Nature Methods杂志评为年度技术。

随着数据的增多，越来越多的算法聚焦于数据的深度分析和算法效能的提升。由于空间组技术分辨率有很大差别，因此涌现了非常多针对于空间组所特定设计的算法任务，如：空间差异基因分析、组织领域识别、空间轨迹推断、空间互作分析、跨切片整合、利用单细胞数据解卷积、空间细胞分割、数据增强等等。从当前已发表的文章来看，绝大多数文章将篇幅着眼于单一任务，使用各种平台和分辨率的空间组数据以验证算法的优越性。在后续研究中，建议研究者不妨“头脑风暴”，多关注不同任务之间的关联性，如轨迹推断能否与调控网络产生一定的因果联系，可否做到跨切片整合并进行三维可视化，揭示三维空间内的细胞/基因流动？从而让自己的工作在众多投稿中“耳目一新”，为编辑所欣赏。

（二）文章的详细介绍与点评

论文1 BIDCell: 一个生物知识引导的自监督学习模型，将细胞分割任务提升至亚细胞精度

【原文链接】：https://www.nature.com/articles/s41467-023-44560-w

【详细介绍】：

亚细胞空间转录组学技术取得了显著进展，能够以高分辨率绘制基因表达的空间分布图，为理解细胞间的相互作用和组织功能提供了新的视角。然而，这些技术在准确识别细胞边界和分配转录本方面仍面临重大挑战。现有的细胞分割方法往往导致细胞碎片化或细胞过大，从而捕获到受污染的表达信号。此外，大多数方法仅依赖于图像信息，忽略了细胞形态与基因表达之间的生物学关系。为了克服这些挑战，悉尼大学的Jean Y. H. Yang教授团队提出了一种名为BIDCell的自监督深度学习框架，通过整合生物学信息和细胞形态学数据，显著提高了细胞分割的准确性。

BIDCell框架的核心在于其生物学信息驱动的自监督学习方法（图1-1）。该方法通过设计多个协同工作的损失函数（包括细胞核包裹损失、细胞形态估计损失、过度分割损失、重叠损失以及正负标记基因损失），结合UNet 3+作为分割模型的骨干架构，自动从输入数据和预测分割中推导监督信号，从而实现无需手动注释的训练。

图1-1 BIDCell框架原理图

在本篇文章中，研究团队开发了一个全面的细胞分割性能评估框架（CellSPA），涵盖五个互补的评估类别，包括细胞和基因水平的基础特征、细胞表达纯度、空间特征多样性、邻近细胞间的污染以及可重复性。通过这一框架，BIDCell在多种组织类型和平台的数据上均优于现有的先进方法（图1-2）。

图1-2 全面的细胞分割性能评估框架（CellSPA）

在生物学应用方面，BIDCell能够准确区分紧密排列的细胞类型，例如在小鼠大脑的海马区，BIDCell能够区分CA1、CA2和CA3区域的锥体神经元，并揭示了新的细胞亚型标记基因（如Cpne8在CA1区域的富集）。这些发现不仅展示了BIDCell在细胞分割中的优越性，还为神经生物学研究提供了新的视角（图1-3）。

图1-3 使用BIDCell对小鼠脑数据进行细胞分割

【资深编辑短评】：亚细胞分辨率的各种技术（如Xenium、VisiumHD、Stereo-seq）需要将不同测量单元（称作Bin）的数据进行富集和合并，合并成单细胞精度再进行后续分析。因此界定细胞边界/细胞分割对亚细胞分辨率的空间组学技术至关重要，本篇文章通过融合各种模态的参考信息将细胞分割任务提升到了一个新的精度。令人印象深刻的是本文为此任务特意设计了一个全面完善的评估框架CellSPA，这点值得研究者们学习借鉴。在现有指标（如聚类任务的ARI等）上达到好的效果是一种选择，但为研究领域开辟新的评估方式，也是一种有意义的学术贡献。

论文2 利用深度生成模型在空间组学平台上以更高的分辨率进行组织表征

【原文链接】：https://www.nature.com/articles/s41467-024-50837-5

【详细介绍】：

近年来，各种空间组学技术（如Visium、spatial-CITE-seq、spatial ATAC-seq）的重大进步使得从空间角度测量并分析各种模态的分子成为可能，为不同生物学领域提供了宝贵见解。但仍有挑战限制了空间组学技术的广泛应用：首先，应用空间组学时对组织有破坏性，从而导致测序读数（reads）少，丢失情况（dropout）明显；二是大多数空间技术仅仅能够达到组织点（spot）分辨率，忽略了相邻spot之间的分子特征，影响后续生物学结论的发现。此外，目前已有的空间分辨率增强的计算方法主要针对空间转录组学数据，缺乏对其他新兴空间组学技术的数据增强手段。为此，来自清华大学的戴琼海院士团队与北京航空航天大学邓岳教授团队合作提出了一个统一的生成式模型“soScope”，可对各种空间技术的数据质量进行增强，并显著提高空间分辨率。

soScope的算法结构如图2-1所示，模型通过编码器-解码器架构，整合低分辨率的空间组学信息与高分辨率的细胞形态学图像信息，并使用组学特异性的分布约束（如转录组服从负二项分布）推断出分辨率增强的组学数据。

图2-1 soScope模型的算法架构

通过对来自多个物种的不同空间组学类型（转录组、表观遗传学ATAC、DNA 和蛋白质）进行综合基准测试，研究团队证明soScope可有效地生成组学数据，在降低数据噪声的同时增强了空间分辨率，从而更精细地表征组织结构。例如，研究团队将soScope应用于由spatial-CUT&Tag生成的空间染色质可及性数据集中，通过数据增强，模型能够通过marker基因的空间分布反映心脏的两层结构：Fhl2在小梁心室心肌中表现出高活性，Ldha在致密心室心肌中表现出高活性（图2-2）。在其余对比方法及原始数据中，均无法明显观察到这种细微组织差别。

图2-2 soScope能够通过数据增强精细展示组织结构

此外，研究团队对soScope进行了改进（称为multi-soScope），通过使用不同空间组学平台生成的多模态数据，multi-soScope能够有效地整合多组学图谱，补偿质量较低的组学数据，并联合提高多组学的分辨率（图2-3）。

图2-3 multi-soScope在人体皮肤组织的空间蛋白+转录本数据集中的应用

【资深编辑短评】：空间组学近两年来成为生物学界的研究热点，从生物角度来看，新兴的技术能够从前所未有的视角对科学问题进行更细致的研究。然而，新兴的技术总是伴随着各种各样的缺陷与不足，为改进/提升技术的效果提供了广阔的空间。soScope这个模型为读者们提供了一个生动的范例。它从技术本身存在的现有问题（dropout高、分辨率不足）出发，补充整合合适的生物学信息（高分辨率的细胞形态学图像），采用新颖的技术（生成模型）完善且系统地解决了现有痛点。此外，该文的验证性实验十分的完整全面，使用跨物种、跨平台、跨组学的数据对模型效果进行评估，彰显了算法的优越性与广泛应用。令人惊喜的是，模型也能揭示原有数据下隐藏的生物学结论，图2-2所示的心肌细胞组织划分便是一个很有意义的例子。建议做方法开发的研究人员多关注具体的生物学意义。

论文3 用于复杂器官的空间组学表示和分析的图傅里叶变换

【原文链接】：https://www.nature.com/articles/s41467-024-51590-5

【详细介绍】：

空间组学技术取得了显著进展，能够以细胞和亚细胞分辨率解码复杂器官的功能组分，为分子生物学研究提供了全新的视角。然而，现有的分析方法在处理空间组学数据时仍面临诸多挑战：一方面，传统统计方法无法充分利用空间组学数据中的复杂空间关系；另一方面，现有的机器学习方法虽然能够学习空间组学数据的特征，但其学习过程通常是一个“黑箱”，难以解释和理解。此外，现有方法在识别空间可变基因（SVG）和增强基因表达信号方面存在效率和准确性的不足。为了解决这些问题，美国俄亥俄州立大学的Qin Ma教授团队提出了一种新的分析方法——Spatial Graph Fourier Transform （SpaGFT）。SpaGFT通过图信号处理技术，将空间组学数据转换为可解释的图傅里叶变换（GFT）特征，从而实现对复杂组织的高效分析和解释。

SpaGFT的核心思想如图3-1所示，简而言之，模型将空间组学数据表示为图信号，并通过图傅里叶变换将其转换为频率域特征。具体而言，SpaGFT首先构建一个空间图，其中节点表示细胞或组织点，边表示节点之间的空间邻近关系。然后，通过图拉普拉斯矩阵的特征分解，计算出图的傅里叶模式（FM）。这些傅里叶模式能够捕捉空间组学数据中的空间变化信息，并将其转换为傅里叶系数（FC）。通过分析这些傅里叶系数，SpaGFT能够识别出空间可变基因（SVG），并增强低表达基因的信号，同时去除高噪声蛋白信号。

图3-1 SpaGFT的算法架构原理图

SpaGFT在多个生物学应用任务中展现了强大的性能和广泛的适用性。例如，SpaGFT能够高效识别出在空间上具有显著变化的基因（SVG），其性能在多个公共空间转录组学数据集上优于现有的工具，如SPARK、SpatialDE等。通过图傅里叶变换和逆变换，SpaGFT能够增强低表达基因的信号，并去除高噪声蛋白信号。此外，SpaGFT能够通过SVG聚类识别出功能组织单元（FTU），并揭示不同FTU之间的功能联系和空间互作。在人类淋巴结数据中，SpaGFT识别了T细胞区、生发中心（GC）和B细胞区，并揭示了这些区域之间的复杂互作关系（图3-2）。

图3-2 SPAGFT 揭示了淋巴结的区域 - 区域相互作用

【资深编辑短评】：空间域识别、高变基因识别等任务已经在空间组学算法建模任务中研究地非常透彻了，绝大多数算法结合图神经网络（GNN）和统计学方法识别空间高可变基因。与其他论文不同，本篇文章切入的角度非常新颖。取法于信号处理领域的频域-时域变换操作，在空间组学图数据上采用图信号变换处理，将空间分布转化成频域分布，从而能够从信号的角度识别高变基因。与之类似的“转换视角”方法可参见西安交通大学叶凯教授的SVision（https://doi.org/10.1038/s41592-022-01609-w）与湖南大学曾湘祥教授的ImageMol（https://www.nature.com/articles/s42256-022-00557-6），二者也都借鉴了视觉模型，将不易处理的基因组数据/分子表征数据转化视觉图像进行处理。这种转化视角的做法值得大家借鉴。

（三）总结与展望

空间组学数据分析方法开发的潜在挑战包括实验技术瓶颈、数据质量的异质性以及新模态数据的引入。例如，在实验技术方面，空间蛋白质组学技术是当前的热门技术之一，如何同时满足高分辨率和大面积组织分析的需求，是计算学家努力攻克的问题。此外，空间组学技术在单次实验中即可生成TB级别的数据量，这给数据处理、批次校正和可视化带来了巨大的挑战。未来空间组学算法需要解决的问题包括多组学数据的整合、三维空间和时空的整合分析，以及提升疾病状态下微环境的分辨率。

制版人：十一

BioArt

Med

Plants

人才招聘

会议资讯

BioART战略合作伙伴

（*排名不分先后）

BioART友情合作伙伴

（*排名不分先后）

转载须知

【非原创文章】本文著作权归文章作者所有，欢迎个人转发分享，未经作者的允许禁止转载，作者拥有所有法定权利，违者必究。