来源:市场资讯

(来源:DrugAI)

DRUGONE

单细胞数据的可视化是理解细胞异质性与动态变化的关键步骤。然而,当前主流降维方法虽然能够揭示聚类结构,却往往丢失基因层面的关键信息。研究人员提出了一种新的流形学习框架 FeatureMAP(特征保持流形近似与投影),通过引入切空间嵌入策略,在低维表示中同时保留细胞结构与基因特征变化。

该方法提出三个核心分析概念:基因贡献、基因变化轨迹以及核心状态与过渡状态。通过这些概念,研究人员能够开展差异基因变化分析,从而识别驱动细胞状态转变的关键调控基因。该方法在模拟数据以及胰腺发育和T细胞耗竭等真实数据中均表现出更强的解释能力与分析深度。

打开网易新闻 查看精彩图片

单细胞转录组数据分析的核心挑战之一,是如何在高维空间中提取有意义的结构信息并进行有效可视化。随着技术发展,诸如UMAP和t-SNE等方法已成为主流工具,它们能够很好地揭示细胞群体的聚类结构。然而,这类方法通常只保留点之间的距离关系,而忽略了原始特征(例如基因表达信息)的显式表达。

这种局限导致研究人员在解释结果时需要依赖额外分析步骤,例如差异表达分析,从而割裂了“结构”和“功能”之间的联系。与此同时,非线性降维过程中信息压缩不可避免,使得许多与细胞动态相关的关键特征难以被捕捉。

因此,研究人员提出一个关键问题:是否可以在降维过程中同时保留数据的拓扑结构和基因特征信息,从而实现更具解释性的单细胞分析?

方法

研究人员提出FeatureMAP框架,通过在流形学习过程中引入局部主成分分析来估计切空间结构,并结合k近邻图近似数据流形。在每个局部区域中,通过奇异值分解提取主方向,从而刻画特征在局部几何结构中的变化趋势。

在此基础上,构建两种互补的低维表示:一种强调细胞密度与聚类结构的表达空间(GEX embedding),另一种强调基因变化方向的变化空间(GVA embedding)。同时,利用密度、曲率和中介中心性等拓扑指标,对细胞进行核心状态与过渡状态的划分,并进一步开展基因变化分析。

结果

FeatureMAP整体框架与核心思想

FeatureMAP通过将局部切空间嵌入到低维空间,实现了在降维过程中保留特征信息的目标。模型首先构建k近邻图刻画数据流形,然后在每个局部区域估计切空间,从而提取基因在不同方向上的变化信息。

在表达嵌入中,方法强调细胞密度与聚类结构;而在变化嵌入中,则通过向量场的方式刻画基因变化方向,从而揭示细胞状态转变路径。

这一设计使得结构信息与功能信息可以在同一框架中被统一表达。

图1:FeatureMAP整体框架与双嵌入设计。
打开网易新闻 查看精彩图片
图1:FeatureMAP整体框架与双嵌入设计。

在模拟数据中揭示调控机制

在基于已知基因调控网络生成的模拟数据中,FeatureMAP不仅能够恢复传统方法识别的分支结构,还能够进一步揭示调控路径。

表达嵌入能够清晰定位高密度核心状态,而变化嵌入则能够准确描绘分叉路径,使细胞分化轨迹更加清晰。通过基因变化分析,研究人员能够识别真正驱动分化的关键基因,而非仅仅依赖表达差异。

图2:模拟数据中的分支结构与调控基因识别。
打开网易新闻 查看精彩图片
图2:模拟数据中的分支结构与调控基因识别。

揭示胰腺发育中的谱系调控机制

在小鼠胰腺发育数据中,FeatureMAP能够更清晰地解析不同细胞谱系之间的分化路径。相比UMAP,其结果在分支区域更加稀疏且结构清晰,使得不同谱系之间的分化关系更加明确。

通过变化嵌入,研究人员能够识别从前体细胞向α细胞和β细胞分化的路径,并通过基因变化分析识别关键调控因子,例如分别驱动两条路径的转录因子。

此外,核心状态与过渡状态的划分揭示了细胞在分化过程中的稳定阶段与动态阶段,使得发育过程的结构更加清晰。

图3:胰腺发育轨迹与关键调控基因。
打开网易新闻 查看精彩图片
图3:胰腺发育轨迹与关键调控基因。

解析T细胞耗竭过程中的动态调控

在慢性感染模型中的CD8⁺ T细胞数据中,FeatureMAP同样展现出优势。表达嵌入揭示了不同功能状态的细胞群体,而变化嵌入则清晰描绘了从效应状态向耗竭状态分化的路径。

通过分析过渡状态细胞,研究人员识别出多个关键调控基因,这些基因参与细胞功能转变过程,并在实验中得到验证。

该结果表明,FeatureMAP不仅能够描述静态结构,还能够揭示动态调控机制。

图4:T细胞分化轨迹与调控基因。
打开网易新闻 查看精彩图片
图4:T细胞分化轨迹与调控基因。

定义并验证过渡状态细胞

FeatureMAP提出了过渡状态这一重要概念,并通过拓扑指标进行系统定义。这些细胞位于不同状态之间,具有较高的基因变化特征。

研究人员进一步通过实验验证这些过渡状态细胞的存在,并发现其在时间上先于终末状态出现,说明该方法具有预测细胞命运变化的能力。

这一结果在单细胞研究中具有重要意义,因为传统方法往往难以识别这些短暂存在的细胞群体。

图5:过渡状态细胞的识别与实验验证。
打开网易新闻 查看精彩图片
图5:过渡状态细胞的识别与实验验证。

与现有方法的系统比较

在与UMAP、t-SNE、PHATE等方法的比较中,FeatureMAP在多个指标上表现更优,包括聚类分离度、轨迹重建能力以及伪时间推断准确性。

尤其是在基因动态变化的表达方面,FeatureMAP能够直接在低维空间中展示基因贡献与变化趋势,而无需额外分析步骤。

这一优势使其成为一个更加一体化的单细胞分析工具。

图6:FeatureMAP与其他方法性能比较。
打开网易新闻 查看精彩图片
图6:FeatureMAP与其他方法性能比较。

本研究提出的FeatureMAP框架,将降维从单纯的结构表示问题转变为同时包含特征解释的问题。通过在低维空间中显式表示基因贡献与变化,研究人员能够直接从可视化结果中提出生物学假设。

相比传统方法,该方法消除了“降维—再分析”的割裂流程,使结构与功能信息在同一空间中统一表达。这对于理解复杂生物过程中的动态调控尤为重要。

此外,核心状态与过渡状态的划分为研究细胞分化提供了新的视角,使研究人员能够识别那些短暂但关键的中间状态。

尽管该方法在局部线性假设和计算成本方面仍存在一定限制,但其在解释性和分析能力上的优势,为单细胞数据分析提供了新的方向。未来结合多模态数据与生成模型,有望进一步拓展其应用范围。

整理 | DrugOne团队