空间多组学技术被称为组织的"超高分辨率地图",能让科学家不仅看到细胞中哪些基因或蛋白质处于活跃状态,还能精确定位这些活动发生的具体位置。这种空间信息对于理解大脑、免疫组织和发育胚胎等复杂器官至关重要。但一项最新研究揭示了一个长期困扰该领域的瓶颈:同时捕捉多个分子层面的数据既昂贵又技术复杂。
西北大学神经学助理教授David Gate博士作为该研究合著者解释道,实际操作中研究者往往得到的是"马赛克"式数据集——不同切片或批次各自只捕捉到部分层面,且常来自不同技术平台或实验室,存在批次效应和数据缺失。发表在《自然·遗传学》上的这项研究提出了名为SpaMosaic的计算方法,专门解决这一日益严重的问题。
该工具由计算生物学团队主导开发,核心在于结合了两项人工智能技术。对比学习帮助AI模型识别跨数据集的有意义异同,图神经网络则处理相邻细胞间的空间关系。两者结合生成共享数据集,使RNA、蛋白质、染色质可及性和组蛋白修饰数据能够整合分析,即使单个数据集仅测量其中部分特征。
在基准测试中,SpaMosaic在模拟数据和真实数据集上均持续优于现有整合方法。测试覆盖小鼠大脑发育、小鼠胚胎以及人类淋巴结和扁桃体等免疫组织。研究者发现,该工具擅长识别具有生物学意义的空间域——即功能身份共享的组织区域——即使数据来自不同技术平台或发育阶段。
SpaMosaic还能有效去除技术"批次效应",如不同实验条件带来的差异。这一特性对构建跨实验室、跨技术的统一细胞图谱尤为关键,为大规模空间组学协作研究提供了新的技术基础。
热门跟贴