Genome Biol丨郑小琪团队开发空间转录组数据降维新算法——GraphPCA|genome|位点|空间转录组|算法|细胞|郑小琪

近年来，空间转录组(Spatial transcriptomics,ST) 技术的快速发展使得研究人员在获取基因表达谱的同时保留了细胞在组织中的空间位置信息，从而能够揭示组织内细胞在空间结构上的异质性。然而，空间转录组数据具有高稀疏性、高维性和低信噪比等特点，为后续数据分析带来了巨大挑战。作为下游分析前必要的预处理步骤，降维不仅可以提高信噪比，还能有效缓解维数灾难。目前，大多数研究人员直接将针对单细胞转录组数据的降维算法应用到空间转录组数据（如Seurat、Scanpy、STUtility等）。然而，这些方法未能充分利用ST数据中的空间信息，可能导致低维嵌入的效率降低，甚至错误的生物学发现。虽然近期已有一些专门针对ST数据的降维算法（如SpatialPCA、DR-SC等），但这些方法或依赖复杂的参数推断，或缺乏模型可解释性。

为了克服这些缺陷，2024年11月7日，上海交通大学医学院单细胞组学与疾病研究中心郑小琪课题组在Genome Biology发表了论文：GraphPCA: a fast and interpretable dimension reduction algorithm for spatial transcriptomics data。该研究基于图正则化表示以及主成分分析法，开发了一种快速、可解释的拟线性降维算法——GraphPCA，该算法可以有效处理空间转录组数据，并提高了低维嵌入的生物学解释能力，同时有效提升了包含空间域检测、降噪以及轨迹推断等多项下游分析任务的性能。这项研究为空间转录组数据的分析提供了一个强有力的新工具，有助于更深入地理解细胞在组织中的复杂相互作用和功能。

GraphPCA建立在灵活的主成分分析框架上，它通过利用位点/细胞之间的空间邻域结构作为图约束，使得低维嵌入能够有效地保留位置信息。GraphPCA的输入包括基因表达矩阵和位点的空间坐标，这些信息被用于构建位点/细胞间的空间邻域图（默认为k近邻图）。与经典的主成分分析方法不同，GraphPCA通过求解一个受空间邻域图约束的优化问题来推断整合了空间位置和基因表达信息的低维嵌入矩阵。由于该优化问题存在封闭解，GraphPCA的计算效率远高于基于深度学习的方法，从而可以高效地处理不同规模的ST数据。通过图约束，GraphPCA可以使相邻位点/细胞在低维空间中的投影更加接近，并且每个嵌入维度都与特定的空间基因表达模式高度相关，这使得基因-成分的投影矩阵能够反映共表达基因模块的空间表达差异性。