引言

如果我们不再将生命组织视为一锅由无数细胞熬成的“浓汤”,而是能够像欣赏一幅超高分辨率的《清明上河图》一样,清晰地看到每一个“细胞居民”的精确位置、它们的身份、它们在和邻居“聊”些什么,甚至能窥探它们“房间”内部的陈设。这并非科幻,而是“空间组学” (Spatial Omics) 时代为我们展开的壮丽画卷。

这项革命性的技术让我们能够在组织的原位背景下,以前所未有的精度解码生命的分子语言。然而,这场技术革命也带来了一场“数据海啸”。不同的空间组学技术就像来自世界各地的测绘队,它们使用着不同的语言(数据模态)、不同的比例尺(分辨率)、绘制出风格迥异的局部地图。如何将这些碎片化的、多模态、多尺度的数据整合,拼凑出一张完整、连贯且蕴含深刻生物学意义的生命地图?这已成为当今生命科学领域最严峻的挑战之一。

10月1日,《Nature Methods》的研究报道“Giotto Suite: a multiscale and technology-agnostic spatial multiomics analysis ecosystem”,为我们带来了一个强大而优雅的解决方案。它不像一位孤独的探险家,而是像一位运筹帷幄的“地图总规划师”,提供了一整套名为Giotto Suite的分析生态系统,旨在统一混乱的数据语言,连接孤立的信息岛屿,让我们能够真正读懂组织这部复杂而立体的“天书”。

打开网易新闻 查看精彩图片

我们在空间组学中看到了什么,又遇到了什么?

在细胞生物学的经典时代,研究人员为了深入了解细胞,常常不得不将其从它所处的组织环境中“粗暴”地分离出来。这种做法虽然让我们对单个细胞的内在机制有了深刻的认识,但却丢失了至关重要的空间信息:细胞与其邻居的相互作用、它在组织结构中的精确位置,以及这些因素如何共同决定其功能与命运。这就像试图通过单独研究每一块砖的材质,来理解一座宏伟教堂的建筑风格与历史底蕴一样,显然是管中窥豹。

空间组学技术的崛起,彻底改变了这一局面。它允许我们在保留组织完整空间结构的“犯罪现场”下,直接进行分子层面的“侦查”。无论是基于高通量测序的技术,如 10x Genomics 的 Visium,还是基于原位成像的技术,如 MERFISH 和 Xenium,它们都在以各自巧妙的方式,为我们呈现组织内部的分子景观。有的技术能一次性捕捉数千个基因的表达信息,但分辨率可能停留在“社区”级别(一个点覆盖多个细胞);有的技术则能达到亚细胞级别的“像素级”精度,让我们看到单个RNA分子在细胞核内还是细胞质中的“一颦一笑”。

然而,这种技术的百花齐放,也无意中建造了一座“数据巴别塔”。就像你手上握有多份关于同一座古城的地图:一份是多模态地图,一张是手绘的人口密度图(转录组),另一张是标注了所有哨塔位置的军事部署图(蛋白质组),它们来自相邻的两页,你需要将它们精确地对齐,才能理解人口分布与军事防御之间的关系;一份是尺度地图,一张是描绘城市主要街道和功能分区的宏观规划图(组织域),另一张则是详尽到每家每户门牌号的微观街景图(单细胞/亚细胞),你需要一种方法在两种比例尺之间自由缩放,并将宏观与微观的信息关联起来;一份是技术异构地图,不同的测绘队(技术平台)使用了不同的符号和单位,绘制出的地图格式五花八门,直接比较几乎不可能。

这些挑战真实地存在于每一位空间组学数据分析者的日常工作中。现有的分析工具往往是为特定技术“量身定做”的,如同专用的方言翻译器,难以应对跨平台、跨模态的整合需求。更令人头疼的是,随着技术的进步,数据量正以指数级增长。例如,Stereo-seq 技术能够生成包含数亿个数据点的单张组织切片数据,其原始数据矩阵大小可达数十GB,这足以让绝大多数个人电脑的内存瞬间崩溃。我们迫切需要一个“通用翻译器”和一个强大的“地理信息系统” (GIS),它必须技术不可知(technology-agnostic),能够流利地“说”各种技术平台的“方言”;它要能处理多尺度(multiscale) 信息,实现从细胞器到整个组织的无缝分析;它必须擅长多模态(multi-modal) 整合,将RNA、蛋白质、表观遗传等信息层融合在一起;最后,面对天文数字般的数据,它还必须具备卓越的可扩展性(scalability)。Giotto Suite,正是为应对这一系列严峻挑战而生的新一代分析生态系统。

构建统一的“数据操作系统”:Giotto Suite的底层逻辑是什么?

要理解 Giotto Suite 的强大之处,我们必须深入其设计的核心,一个巧妙且极具扩展性的数据框架。它没有试图去削足适履,强迫所有不同类型的数据都挤进一个僵硬的模子里,而是设计了一种灵活的、通用的数据“表示”语言。这个框架的基石是两个核心概念的分离与重组:“特征” (Features)“空间单元” (Spatial Units)

“特征” (Features) 指的是我们测量的分子实体。它可以是一个基因的表达量 (transcriptomics),一种蛋白质的丰度 (proteomics),一个染色质开放区域的信号 (epigenetics),甚至是细胞的某种形态学参数。本质上,它回答了“是什么”的问题。而“空间单元” (Spatial Units) 指的是这些特征在空间中存在的载体。它可以是一个抽象的网格点 (grid/spot),一个被算法识别出的细胞核 (nucleus) 或完整的细胞 (cell),一个由多个细胞组成的邻里 (neighborhood),甚至可以是研究人员根据病理学特征手动圈出的一个肿瘤区域 (domain)。它回答了“在哪里”的问题。

Giotto Suite 的巧妙之处在于,它将这两个概念解耦,允许用户以任意方式对它们进行组合和分析。这种设计哲学赋予了整个系统无与伦比的灵活性。你可以提出这样的问题:“请告诉我基因 ERBB2 在所有‘细胞核’这个空间单元中的平均表达量”,或者“请比较一下‘肿瘤核心区域’和‘肿瘤边缘区域’这两个空间单元内,所有免疫相关蛋白的丰度差异”。为了实现这一框架,Giotto Suite 开发了专门的数据结构来承载不同类型的信息。例如,giottoPoints用于存储像单个RNA分子这样的点状信息,精确记录其x,y,z坐标;giottoPolygon则像一个多功能的形状容器,可以用来表示细胞或细胞核的轮廓边界;而giottoLargeImage则负责处理组织染色图像(如H&E染色图),并能将其与其它分子数据对齐。

这个核心框架就像一个强大的数据操作系统,它为上层的各种分析应用提供了一个统一、稳定且高效的底层支持。无论是进行细胞类型注释、探索细胞间的相互作用,还是整合不同来源的数据,所有的操作都是在这个统一的框架下进行的。这不仅大大简化了复杂数据的处理流程,更重要的是,它为研究人员提供了一种新的思维方式,一种以空间为核心、跨越尺度和模态的系统性思维方式,去探索和理解生命组织的内在秩序。

从细胞核到组织微环境:Giotto Suite如何实现“广角”与“微距”的无缝切换?

生物学过程本身就是跨尺度的。一个癌细胞的恶性行为,既可能源于其细胞核内某个基因的异常表达(微距视角),也受到其所处的、由免疫细胞和基质细胞共同构成的肿瘤微环境的深刻影响(广角视角)。一个强大的分析工具,必须能够让研究人员在这两种视角之间自如切换,甚至将它们关联起来。Giotto Suite 通过其分层的数据组织方式,完美地实现了这一点。研究人员利用 MERFISH 技术生成的一份人类乳腺癌FFPE组织样本数据,淋漓尽致地展示了 Giotto Suite 的多尺度分析能力。

深入细胞内部的微观世界。传统的单细胞分析通常将细胞视为一个不可分割的基本单位,忽略了其内部复杂的空间结构。然而,Giotto Suite 能够轻易地打破这一限制。研究人员首先利用细胞核和细胞质的分割信息,将转录本精确定位到其所属的亚细胞区域。通过基因集富集分析 (GSEA),他们得到了清晰的答案。与“核腔” (nuclear lumen) 功能相关的基因集,其转录本被显著地富集在细胞核内部;而与“高尔基体运输” (Golgi transport) 和“内质网” (endoplasmic reticulum) 等细胞质结构功能相关的基因,则主要分布在细胞质区域。这不仅验证了已知的生物学知识,更重要的是展示了一种强大的分析能力:我们可以直接在亚细胞尺度上,对基因功能与空间定位进行系统性的关联分析。

从细胞个体到细胞社区。将视角稍稍拉远,Giotto Suite 将每个细胞作为一个空间单元,对其内部的所有转录本进行汇总,从而得到每个细胞的基因表达谱。但 Giotto Suite 并未止步于此。它进一步定义了更高层次的空间单元——“细胞邻里” (neighborhoods) 和“组织域” (domains)。通过分析细胞类型的空间共存模式,Giotto Suite 能够自动识别出由不同细胞类型组成的、具有特定功能的“细胞社区”。例如,它可能发现一个由肿瘤细胞、巨噬细胞和内皮细胞紧密聚集形成的“促转移微环境”。

连接所有尺度的“数据链条”。Giotto Suite 最厉害的能力,是它能够清晰地展示这些不同尺度之间的层级关系。研究人员通过一种名为“桑基图” (Sankey plot) 的可视化方式,直观地展示了数据在不同尺度间的流动和归属。例如,图上清晰地显示出某个宏观的“组织域”是由哪几种“细胞邻里”构成的,而每一种“细胞邻里”又是由哪些具体的细胞类型组成的。这种从亚细胞到组织域的无缝、多尺度分析能力,是理解复杂生物学过程的关键。它让研究人员能够像使用变焦镜头一样,既能聚焦于单个分子的精细定位,又能俯瞰整个组织的宏大结构,并将不同尺度下观察到的现象有机地串联起来,形成一个完整的故事。

转录组学“遇见”蛋白质组学:Giotto Suite如何拼凑多模态数据的完整拼图?

生命的功能是由多种分子共同协作执行的。将不同模态的数据整合起来,才能获得对细胞状态和组织功能更全面的理解。Giotto Suite 在处理这种多模态数据整合问题上,展现了其作为“超级枢纽”的强大能力。

挑战一:对齐来自不同“时空”的地图。研究人员使用了一个来自 10x Genomics 的多模态乳腺癌数据集,它包含了来自相邻两片组织切片的多种数据。首要任务就是将它们精确地对齐。Giotto Suite 提供了一套交互式的地标选择和仿射变换工具。研究人员可以在两张组织的H&E染色图像上,手动选取对应的解剖学特征点作为“锚点”,Giotto Suite 就能自动计算出最佳的变换矩阵,将 Visium 的数据与 Xenium 数据的空间坐标系完美对齐。对齐之后,所有的数据层都被整合进一个统一的Giotto对象中,为下游的联合分析铺平了道路。

挑战二:验证不同模态信息的一致性。数据对齐后,一个自然的问题是:不同技术、不同模态测量到的信息,彼此之间一致吗?例如,编码 HER2 蛋白的基因 ERBB2 的mRNA水平,是否与其HER2蛋白的水平在空间上吻合?通过计算一种名为“双变量莫兰指数” (Bivariate Moran's I) 的空间相关性指标,他们发现,ERBB2 基因的表达与 HER2 蛋白的丰度在空间上呈现出中到高度的正相关,相关性值在特定网格尺寸下最高可达 0.71。他们还系统性地比较了在两种不同转录组技术(Visium 和 Xenium)中共同检测到的基因,结果显示两种技术的测量结果总体一致性良好,皮尔逊相关系数 (Pearson's r) 的中位数为0.414。这些细致的比较,不仅评估了技术间的一致性,也为研究人员在解读数据时提供了重要的参考。

挑战三:评估上游分析选择的下游影响。在许多空间组学分析中,“细胞分割” (cell segmentation) 是一个公认的难题。Giotto Suite 能够轻松地读取和管理来自多种不同分割算法的结果。研究人员比较了 10x Genomics 官方提供的分割结果和另一种流行的 Baysor 算法的结果。结果差异是惊人的:Baysor 算法识别出了 223,696 个细胞,而官方算法只识别出 164,781 个。不仅细胞总数不同,细胞的平均大小也存在显著差异(Baysor识别的细胞中位面积为67.45平方微米,而官方为136.82平方微米)。更重要的是,这种差异直接传导到了下游的细胞类型注释上。这个例子敲响了警钟:计算方法的选择远非一个无足轻重的技术细节,它可能深刻地影响我们对组织构成的最终解读。Giotto Suite 提供了一个标准化的平台,让研究人员能够系统地评估和比较这些选择,从而做出更稳健、更可靠的科学推断。

驾驭数据洪流:面对“天文数字”级别的空间数据,Giotto Suite有何“独门秘籍”?

随着空间组学技术的不断迭代,我们正在进入一个“大数据”时代。以研究中使用的 Stereo-seq 小鼠胚胎发育数据集为例,仅仅一个矢状切面就包含了来自 2.92 亿个 空间单元的 3.78 亿个 转录本。其原始的基因-空间单元表达矩阵,需要占用大约40GB的计算机内存 (RAM)。为了“驯服”这头数据巨兽,Giotto Suite 团队巧妙地整合了多种“独门秘籍”。

硬盘作外存,“延迟计算”与“核外表示”。Giotto Suite 采取了聪明的策略,它引入了基于磁盘的后端存储机制。例如,它使用HDF5Matrix格式将巨大的表达矩阵存储在硬盘上。当需要进行计算时,它并不会加载整个矩阵,而只是“按需取用”,这种策略也被称为“延迟计算” (lazy evaluation)。对于海量的空间坐标信息,它开发了“核外表示” (on-disk representation) 结构,在内存中只保留数据的索引,极大地降低了对计算机硬件的门槛。

分而治之,灵活的“网格化”与“切片化”。面对一幅巨大无比的地图,一个自然的想法是将其分割成若干个小块,逐个处理。Giotto Suite 提供了高度灵活的“网格化” (tiling) 或“空间剖分” (tessellation) 功能。研究人员在分析巨大的小鼠胚胎图像时,就采用了这种策略。通过在不同分辨率的网格上进行聚类分析,研究人员可以从不同尺度探索组织结构,识别出在宏观尺度下可能被忽略的精细模式。

以点带面,高效的“投影”策略。即便采用了核外计算,对数亿个数据点进行复杂计算仍然极其耗时。为此,Giotto Suite 还引入了“投影” (projection) 的分析策略。其逻辑是先从海量数据中随机抽取一个有代表性的子集(例如10%),只在这个子集上进行耗时的模型训练。然后,将训练好的模型“投影”到剩余的90%数据上,快速完成计算。这种“以点带面”的方法,在保证结果准确性的前提下,极大地提升了计算效率。

打破“生态壁垒”:Giotto Suite如何成为连接不同分析工具的“超级枢纽”?

一个优秀的分析生态系统,不仅要自身功能强大,更要具备开放、包容的特性,能够与其他主流工具无缝对接,实现“互操作性” (interoperability)。Giotto Suite 在这方面做出了卓越的努力,致力于成为连接不同分析世界的“超级枢纽”。

连接 R 与 Python 的桥梁。Giotto Suite 内置了双向、高效的数据转换器。它可以轻松地将 Giotto 对象转换为 Bioconductor 的SpatialExperiment对象、Seurat 对象,或是 Python 生态中的AnnData对象,反之亦然。这意味着,研究者可以灵活地利用每个生态系统的独特优势,博采众长,自由地组合使用最适合其科学问题的工具。

借鉴地理空间科学的智慧。“空间分析”并非生物学所独有。Giotto Suite 深度整合了 R 语言中强大的地理空间 (geospatial) 分析包,如terrasf。这为生物学家们打开了一扇新的大门。他们现在可以利用“克里金插值” (Kriging) 这种经典的地理统计方法,来提升低分辨率空间转录组数据的表观分辨率,或应用各种复杂的空间自相关统计量,来更精确地量化基因表达的空间模式。

开放与协作的社区。Giotto Suite 本身是一个模块化的软件包套件,其设计哲学鼓励第三方开发者在其核心框架之上构建新的功能和应用。通过提供清晰的文档、丰富的教程和开放的源代码,Giotto Suite 正在构建一个活跃的开发者和用户社区。通过打破这些“生态壁垒”,Giotto Suite 不再仅仅是一个孤立的分析工具,它真正成为了一个连接不同思想、技术和社区的枢纽平台。

不仅是工具,更是一种思想:Giotto Suite为生命科学研究带来了什么新范式?

回顾该研究,Giotto Suite 带来的远不止是一个功能强大的软件包。它更代表了一种处理和理解复杂生物学数据的全新范式。在空间组学的黎明时代,分析方法零散而割裂。Giotto Suite 则通过其统一、灵活且可扩展的框架,为我们指明了一条通向系统化、整合性空间生物学的清晰路径。

它告诉我们,在面对多源异构的数据时,关键在于建立一个能够“求同存异”的底层数据结构。它所倡导的“特征”与“空间单元”分离的思想,正是这种智慧的体现。它向我们证明,跨尺度的分析是理解生命复杂性的必由之路。生物学的故事线索,往往就隐藏在分子、细胞、组织等不同层级之间的关联与对话之中。它强调了多模态数据整合的极端重要性。生命的交响乐是由基因、RNA、蛋白质等多种“乐器”共同演奏的,只听其中一种,永远无法领略其全貌。最后,它以开放和互联的姿态,拥抱整个科学社区,没有建造高墙,而是搭建桥梁。

未来,随着人类细胞图谱 (Human Cell Atlas) 等宏大科学计划的推进,我们将拥有越来越复杂的空间多组学数据。如何从这些数据中提炼出关于健康与疾病的深刻洞见,将是未来十年生命科学的核心议题。Giotto Suite 这样的分析生态系统,无疑将成为每一位探索生命空间奥秘的研究者手中不可或缺的“罗盘”与“航海图”。它不仅能帮助我们看清生命地图上的每一处细节,更能引导我们发现那些连接细节、构成宏图的深层规律。这,或许就是它为生命科学研究带来的最宝贵的贡献。

参考文献

Chen JG, Chávez-Fuentes JC, O'Brien M, Xu J, Ruiz EC, Wang W, Amin I, Sheridan JP, Shin SC, Hasyagar SV, Sarfraz I, Guckhool P, Sistig A, Jarzabek V, Yuan GC, Dries R. Giotto Suite: a multiscale and technology-agnostic spatial multiomics analysis ecosystem. Nat Methods. 2025 Oct 1. doi: 10.1038/s41592-025-02817-w. Epub ahead of print. PMID: 41034612.

转载请注明来源于【游离的DNA】

声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!