空间转录组技术的发展,使研究者能够在组织原位解析基因表达的空间分布,为刻画肿瘤微环境提供了前所未有的分辨率。然而,尽管该领域在技术与应用层面快速发展,如何将空间 组学有效服务于临床决策, 仍是 一个 尚未解决的核心问题。
针对这一关键问题, 近日,上海交通大学系统生物医学研究院段斌课题组在空间组学与临床数据整合分析方向取得重要进展,相关成果以SpaPheno: Linking Spatial Transcriptomics to Clinical Phenotypes with Interpretable Machine Learning为题,于近日 在Genome Medicine在线发表。
具体而言,空间组学临床转化主要面临三方面挑战:( 1 )生存预后、肿瘤分期及免疫治疗反应等临床表型通常来源于缺乏空间分辨率的 bulk RNA-seq 队列,使得空间分子特征与临床结局之间的直接映射关系难以建立;( 2 )空间转录组数据普遍存在信号稀疏、噪声较高以及跨平台异质性显著等问题,限制了模型在不同样本与组织区域中的稳健性;( 3 )临床应用不仅依赖预测性能,更强调模型的生物学可解释性,以支持潜在机制发现及可干预靶点识别。
针对上述难点问题, 研 究团队提出了一种面向临床转化的可解释机器学习框架—— SpaPheno 。 该方法构建了空间转录组与临床表型之间的统一可解释建模体系,将特征构建、稀疏学习与解释归因在同一框架内协同优化,从而实现多尺度生物学信息的系统建模与解释。
具体而言, SpaPheno 首先融合细胞类型组成与局部空间上下文信息,构建具有生物学可解释性的低维特征表示,使空间转录组数据与 bulk RNA-seq 数据能够嵌入到细胞类型分辨的共享特征空间中,实现跨模态的一致表征。在此基础上,方法采用弹性网络回归( Elastic Net ),在处理高维且强相关特征结构的同时引入稀疏性约束,以提升模型稳定性并增强可解释性。进一步地, SpaPheno 结合 Shapley Additive Explanations ( SHAP ),为不同空间与细胞层面的特征贡献分配可量化的重要性评分,从而实现对局部生物学信号的精细定位与解释。
图 1. SpaPheno 框架
值得强调的是,与传统 “ 黑箱 ” 模型不同, SpaPheno 不仅能够对患者生存预后与肿瘤分期等临床结局进行有效预测,还能够从空间区域、细胞类型乃至单细胞 等多尺度 解析其对疾病表型的贡献,从而将模型输出转化为具有明确生物学意义的可解释信号,为肿瘤微环境机制研究提供新的分析路径。这一框架进一步凸显了可解释人工智能在生物医学研究中的关键价值,并推动空间组学分析从 “ 模式识别 ” 向 “ 机制解析与临床关联 ” 的转变。
此外,该研究还系统整合并标准化了来自 The Cancer Genome Atlas ( TCGA )的泛癌种生存与分期数据,并结合统一整理的泛癌单细胞参考图谱,构建了可复用的分析资源体系。相关代码与数据已在 GitHub 开源( https://github.com/Duan-Lab1/SpaPheno ),为空间转录组数据的临床解释与方法推广提供了重要基础支撑。
该工作是课题组围绕 “ 肿瘤系统生物学与可解释人工智能 ” 研究体系的重要进展,未来将进一步发展面向肿瘤系统状态识别、机制建模与干预策略设计的一体化方法。
本研究由上海交通大学系统生物医学研究院助理教授段斌担任通讯作者,段斌、程小桔和邹华为共同第一作者。
原文链接:https://link.springer.com/article/10.1186/s13073-026-01645-7
欢迎对单细胞与空间组学、人工智能及肿瘤生物医学交叉研究感兴趣的硕博士生、博士后及本科实习生加入课题组,共同开展相关研究。
制版人:十一
BioArt
Med
Plants
人才招聘
学术合作组织
(*排名不分先后)
转载须知
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
热门跟贴