撰文丨王聪

编辑丨王多鱼

排版丨水成文

肿瘤免疫微环境(Tumor Immune Microenvironment,TIME)对癌症的发展进程和免疫治疗响应有着至关重要的影响。多重免疫荧光(mIF)是一种强大的成像方式,可用于解析肿瘤免疫微环境(TIME),但其应用受到高昂成本和较低通量的限制。

近日,微软研究院潘海峰微软研究院/华盛顿大学王晟等人在国际大奖学术期刊Cell上发表了题为:Multimodal AI generates virtual population for tumor microenvironment modeling 的研究论文。

该研究提出了GigaTIME,这是一个通过连接细胞形态和状态来进行大规模群体肿瘤免疫微环境建模的多模态人工智能框架(该工具已在 Hugging Face、GitHub 和 Microsoft Foundry 免费开源)。

GigaTIME
学习了一种跨模态翻译器,通过在 4000 万个细胞的配对 H&E 和 mIF 数据 (涵盖 21 种蛋白质) 上进行训练,成功实现了 从常规 H&E 病理切片到多重免疫荧光( mIF) 图像的跨模态转换。

研究团队应用GigaTIME技术生成了涵盖 24 种癌症类型和 306 种亚型的虚拟 mIF 图像,从中发现癌症中的免疫活性、肿瘤侵袭和生存率中的 1234 种关联,为可扩展的数据驱动型肿瘤学研究开辟了新途径,也为虚拟患者奠定了基础。

GigaTIME技术突破了昂贵、低通量的 mIF 技术限制,使得能够利用现有的、规模庞大的 H&E 切片库,进行大规模、数据驱动的肿瘤学研究,从而加速癌症治疗及个性化医疗的发展。

打开网易新闻 查看精彩图片

传统技术的局限与 AI 的突破

肿瘤免疫微环境(TIME)是影响癌症进展和治疗响应的关键因素。长期以来,多重免疫荧光(mIF)技术虽然能提供丰富的蛋白质空间表达信息,但由于成本高昂、流程复杂,难以在大规模人群中应用。

相比之下,H&E 染色作为病理学常规检查,成本低廉且广泛应用,但其无法直接显示蛋白质活性。

研究团队提出了核心问题——能否通过 AI 技术,从 H&E 切片中提取足够信息来预测蛋白质的空间表达?

GigaTIME技术框架:从细胞到群体

研究团队首先构建了包含 4000 万细胞的配对数据集,每个细胞均有对应的 H&E 图像和 21 种蛋白质的 mIF 表达数据。基于这一宝贵资源,他们开发了基于 NestedUNet 的编码器-解码器架构。

GigaTIME
的工作流程令人印象深刻:输入一张 H&E 切片,AI 模型能够同时输出 21 个蛋白质通道的虚拟 mIF 图像,每个像素点都会给出蛋白质激活状态的预测。这种细粒度的预测能力,使得研究人员能够在整个切片水平上分析蛋白质激活模式。

大规模验证:从 1.4 万患者到虚拟蛋白质图谱

研究团队将

GigaTIME
应用于普罗维登斯健康系统的 14256 名患者数据,涵盖了 24 种癌症类型和 306 种亚型。最终生成了 299376 张虚拟 mIF 图像,构建了迄今为止最大的肿瘤免疫微环境 (TIME) 虚拟群体。

值得注意的是,

GigaTIME
在各项指标上均显著优于传统的 CycleGAN 方法。在 DAPI 核染色通道上,
GigaTIME
的 Dice 分数达到 0.72,而 CycleGAN 仅为 0.03,这证明了基于配对数据训练的重要性。

临床发现的宝库:1234 个显著关联

虚拟群体的创建为大规模临床发现提供了可能。研究团队识别了 1234 个统计学显著的蛋白质-生物标志物关联,这些发现涵盖了泛癌、癌症类型和亚型三个层次。

在泛癌水平,研究证实了 TMB-H 和 MSI-H 基因型与 CD138、CD20 等免疫标志物的正相关,这与已知的抗原介导的免疫激活机制一致。更有趣的是,该研究发现 KMT2D 突变与 CD3、CD8、CD20 等免疫浸润标志物呈正相关,提示 KMT2D 突变可能增强泛癌水平的免疫浸润。

空间模式与组合效应:超越传统分析

GigaTIME
的优势不仅在于预测蛋白质表达,更在于其能够捕捉空间分布模式。研究团队评估了熵、信噪比和锐度等空间指标,发现这些指标相比简单的激活密度能揭示更强的临床关联。

此外,研究还探索了蛋白质组合效应。例如,CD138(浆细胞标志物)和 CD68(巨噬细胞标志物)的组合在预测生物标志物时表现出协同效应,这提示浆细胞与巨噬细胞的共定位可能通过抗体介导的机制参与肿瘤免疫。

打开网易新闻 查看精彩图片

临床应用的广阔前景

在患者分层方面,

GigaTIME
展现出重要临床价值,整合所有 21 个蛋白质通道的
GigaTIME
特征在预测患者生存方面优于单个蛋白质通道,强调了多重分析的重要性。

独立验证进一步支持了

GigaTIME
的可靠性。在 TCGA 数据库的 10200 名患者中,虚拟蛋白质激活与普罗维登斯数据高度相关,Spearman 相关系数达 0.88,两个群体共享 80 个显著的蛋白质-生物标志物关联,显示了良好的可重复性。

未来展望与局限性

未来,研究团队计划探索更多蛋白质通道,并整合细胞分割模型来研究细胞间相互作用,进一步揭示肿瘤微环境的“语法规则”。

GigaTIME
代表了多模态 AI 在数字病理学中的重要进展,它不仅为研究人员提供了大规模研究肿瘤微环境的工具,更为精准免疫肿瘤学的发展开辟了新途径。随着技术的不断完善,有理由相信,AI 将在癌症研究和临床实践中发挥越来越重要的作用。

这项研究最令人振奋指出或许在于它展示了一个未来图景——通过 AI 技术,我们能够以更低的成本、更大的规模,深入探索肿瘤微环境的复杂性,最终为患者带来更有效的治疗策略。

论文链接

https://www.cell.com/cell/fulltext/S0092-8674(25)01312-1