打开网易新闻 查看精彩图片

近年来蓬勃发展的空间转录组技术 成为了 疾病研究新的 显微镜 , 它们 能够 将 组织切片 转 化 为 基因地图 的测量 。随着技术 的发展带来 高清的基因地图,此类数据中高 稀疏 + 高维度 + 高通量的新特性给细胞和基因的解读带来了极大挑战。 新的 算法 STHD 不再把基因地图“马赛克化”,而是 使用机器学习 处理 微米级别 像素背后的上万个基因, 一次性 呈现几百万 个 高清 像素 的细胞类型地图 , 由此可在 全转录组 层面更清晰地描绘细胞类型边界与组织微环境结构,为肿瘤等复杂疾病样本的机制研究与标志物发现提供高分辨率 研究工具。

近年来蓬勃发展的空间转录组技术给疾病研究带来了新的手段, 它们 能够在组织原有的结构之上测量多个基因在细胞里的位置和表达量 ,使组织研究 精细到 细胞和分子层面 。 以往 的 空间转录组 技术通常 需要平衡测量精度和基因数量。一般来说, 一类 以成像为原理的技术可以达到高清的亚细胞精度,但是只包含几百到一千左右的基因,适合单细胞层面的细胞类型分类和特定分子的高清验证; 另一类 以测序为原理的技术可以包含全基因组,但是每个测序单元 混合 多 种 细胞,适合组织层面和细胞群体的基因网络研究。 目前 空间转录组学正迅速迈入 “ 亚细胞分辨率 + 高通量 转录组覆盖 ” 的阶段 ,代表性技术 包括 Stereo-seq,VisiumHD等 等 。 然 而,此类数据 中 高 稀疏 + 高维度 + 高通量的 新 特性给 空间细胞注释等多个分析步骤 带来了挑战 。 例如, 目前 的 “ 先聚合 邻近网格 、再去卷积 ” 的工作流程面临 着 分辨率损失和算法扩展性 的 瓶 颈 ,而病理图像驱动的细胞分割方法在复杂组织内无法处理致密细胞结构而且容易损失细胞核外信息。

最近,杜克大学张翼实验室 在Genome Biology发表 机器学习计算方法STHD: probabilistic cell typing of single Spots in whole Transcriptome spatial data with High Definition提出新的 解决方案。 不同于以往的网格 聚合方法 , STHD 整合单细胞 转录组作为 参考数据 集 , 在亚细胞尺度上直接 进行细胞 类型 的 概率 式 预测 , 适用于 VisiumHD 和 Stereo-seq 等微米级别分辨率技术 产生的 高 稀疏 + 高维度 数据。以 VisiumHD 为例, STHD 可以 在 2um 的亚细胞分辨率上输出每个空间点的细胞标签, 有效防止了在 其他方 法中的 细胞 分割困难或细胞 类型混杂与空间分辨率下降的问 题 。STHD结合梯度推导计算patchlevel并行策略达成了高效计算,可以使用CPU在几小时完成整个VisiumHD样本内千万spot的推断;同时提供交互式STHDviewer,实现亚细胞尺度的组织可视化与后续空间差异。 STHD软件已在 https://github.com/yi-zhang/STHD 开源 ,适用于多种组织类型 。

打开网易新闻 查看精彩图片

微米级别空间转录 数据 的 传统 分析 方法 主要 依赖于 “ 网格聚合 + 去 卷积 ” 的 流程 ,即先将单个 稀疏 spot 聚合成 覆盖更多转录本的 bin (网格) ,再对该 bin 中混合细胞类型进行分解。这种方法虽然解决了数据稀疏性,但 导致了 细胞类型混杂与空间分辨率下降的问题。 另外一类基于图像的细胞分割方法在复杂组织内也面临细胞分割的精度问题,且 不能处理复杂细胞形态。 S THD 采用 了逆 向 设计 :直接在原始 2×2 µm 分辨率的单个 spot 层面进行细胞类型推断, 在初期跳过 binning 网格聚合 和细胞分割步骤, 直接在 高 分辨率 的原始基因计数上面进行计算, 避免混合效 应。 其 算法核心设计了 一个双重目标函数:其一,基于泊松分布的似然函数对 spot 上每个基因的计数进行建模,参数 整合了 单细胞 参考 数 据中每个细胞类型的标准表达模型;其二,邻域正则化项通过交叉熵衡量空间上相邻 spot 的细胞类型概率分布相似性,这一平滑机制由 β 参数控制。这种设计兼顾统计建模精度,也增强空间连贯性 。 STHD 的 输出结果 既包含每个 spot 的 细胞类型, 也给出后验概率,便于识别边界与模糊区。 在后续 分析 中, 这些 细胞标签 可以 支 持 “cell type - stratified binning” , 即 在 binning 时只聚合 同类 细胞 , 从而 在提 升 深度的 同 时 避免细胞类型混淆, 最终 增强差异表达 基因 与细胞互作分析的准确 性。

打开网易新闻 查看精彩图片

图一 STHD 机器学习算法

现有的 代 表性去卷积工具 ,如 RCTD , CARD , Cell2Location 等,可以在 Visium 等低精度空间转录数据中有效推测细胞类型 比 例 ,但在 此类 高精度稀疏数据下 容易因信号不足而失 准 。 作者设计了 高精度 的 空间 转录组 模拟数据 进行 测试, 发现 STHD 显著提高了空间一致 性 , 分类准确性 和计算效率 ,精确度 达到 93.97% , AUC 分数 达到 99% 。 在真实 VisiumHD 数据中, S THD 的细胞标签 能够 精确对应 到 病理图像 的 组织 结构和区域 , 并 且 每 种 细胞类型 的标 志 基因 呈现 特异性 表达 , 与 单细胞参考数据 的 高度一致 ,体现了细胞类型预测的精准度 。 而且,亚细胞 分辨率 使得 STHD 能够发现肿瘤组织里相对稀有的 细胞 如免 疫 细胞,并且 能够 划分出细胞类型转变的关键边 界 位置。

在对结肠癌 VisiumHD 数据的 分析 中, 作者 首先 利用 公开 的人结直肠癌单细胞参考数据集( 37 万 个细胞, 9 8  个 细胞 亚型)构建参考表达 谱,输出了 近九百万 个 2um spot 的 细胞类型。这些微米层面的细胞类型标签在宏观上可以 区分出 组织里的 肿瘤上皮细胞、 隐窝 、 间质 、 不同类型肿瘤纤维细胞、 stemness 干性肿瘤细胞 区域、集结 的 免疫 细胞 等 结构 。 在微观层面上 , STHD 可以 识别 组织中的微型 血管、单个免疫细胞、 SPP1+ 缺氧巨噬细胞簇、 T 细胞与髓系细胞互作 活跃区 、 特定细胞因子通讯热点 区域 (如 CCL17/CCL19 ‑ CCR7 ) 等 肿瘤微环境中 的 关键结构和互 作 机制 ,为解析肿瘤免疫微环境提供了 极高 的分辨 率 。 这些自动预测的 细胞 标签 还 可以 有效地 帮助差异表达基因的分析 。 以往空间转录组的差异基因分析受组织异质性大, 往往 区域之间的细胞丰度的变化和细胞表达的变化 都会影响差异基因分析 结果 。利用STHD细胞类型标签 分析单一类型细胞空间差异表达时 , 能够 发现边缘的肿瘤细胞上调TNF-alpha通路,肿瘤内部的巨噬细胞上调SPP1 基因簇和hypoxia 缺氧 通路 。 在不同的免疫细胞互作活跃区,研究者发现 T 细胞与不同的细胞类型(如巨噬细胞和树突状细胞)发生互作,而且这些区域呈现出差异性地表达不同程度的肿瘤杀伤相关基因。基于后验概率,研究者识别出细胞类型的交界前线( frontline ),并将距离交界约一个单细胞大小的区域定义为 near-frontline ;随后在控制相同细胞对的条件下,将其与 far-frontline 进行比较。整合前线区域的转录本信息后,结果显示,在 T- 巨噬细胞对和 T- 树突状细胞对中, near-frontline 区域均表现出更高的细胞通讯活性。具体而言, T- 巨噬细胞通讯主要由 CD74-IFNG 交互驱动,而 T- 树突状细胞通讯则由 CCL17/CCL19-CCR7 交互介导,提示成熟树突状细胞在 T 细胞免疫调控中发挥重要作用 。

图三 结肠癌 VisiumHD 全样本的亚细胞精度注释和两个 T- 髓系细胞免疫互作活跃区

STHD 适用于多种样本与组织类型的细胞类型预测。在多个结直肠癌 VisiumHD 样本中,作者观察到这些样本呈现出一致的肿瘤、基质和免疫细胞类型,并在其中一个样本中发现特有的肿瘤三级淋巴结构,其内部包含生发中心 B 细胞和滤泡辅助性 CD4T 细胞,并表达相应的细胞因子 CXCL13 。 STHD 也适用于其他组织类型的 VisiumHD 和 Stereo-seq 数据的微米级注释;结合相应组织的单细胞数据集, STHD 展示了 标注 的 小鼠小肠和脑组织,以及人类胰腺组织的细胞类型与结构。 STHD 软件已在 https://github.com/yi-zhang/STHD 开源 。

原文链接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-025-03608-4

杜克大学张翼 课题组致力于机器学习和生物医学数据的算法开发研究,以及肿瘤和免疫相关疾病的基因组大数据应用。 课题组 长期 招收博士后,博士生,助理研究员,科研实习生;欢迎对 AI+Bio 感兴趣的计算生物学或交叉学科背景的同学联系申请。

制版人:十一

BioArt

Med

Plants

人才招聘

学术合作组织

(*排名不分先后)

打开网易新闻 查看精彩图片

战略合作伙伴

(*排名不分先后)

转载须知

【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。