连发Nature、Cancer Cell：上海交大团队利用AI增强罕见病及癌症诊断|cancer|病理学|癌症患者|罕见病

编辑丨王多鱼

排版丨水成文

2026 年 2 月 18 日，上海交通大学人工智能学院/上海人工智能实验室谢伟迪，上海交通大学医学院附属新华医院孙锟、余永国，上海交通大学人工智能学院/上海人工智能实验室张娅作为共同通讯作者，在Nature上发表研究论文【1】，开发了，首次在罕见病诊断的准确性上，超越了拥有十年以上经验的临床专家。这项研究不仅推进了罕见病诊断的发展，为全球三亿罕见病患者带来了实实在在的希望，更是 AI 在医疗领域的一个里程碑，展示了大语言模型驱动的 AI 智能体系统如何重塑当前的临床工作流程。

一天后的 2 月 19 日，谢伟迪、王延峰、孙锟、张娅作为共同通讯作者，在Cancer Cell期刊发表了题为：Knowledge-enhanced pretraining for vision-language pathology foundation model on cancer diagnosis 的研究论文【2】。

该研究开发了一种知识增强型视觉语言病理基础模型——KEEP，用于癌症诊断，其表现优于现有的基础模型，尤其是在罕见癌症亚型上。这项研究确立了知识增强型视觉语言建模作为推进计算病理学的强大范式。

病理学诊断在临床癌症诊断应用中仍是金标准。过去十年间，计算机视觉领域深度学习技术的进步极大地推动了计算病理学的发展，催生了基于全监督或弱监督的专门模型。尽管这些方法前景可观，但它们通常受限于标注成本高昂和标注数据稀疏，以及在不同数据集上的泛化能力有限。为解决这些局限性，自监督学习（SSL）策略应运而生，成为一种有前景的替代方案，它能让模型在大量未标注的病理图像上进行预训练，作为一系列下游任务的通用特征提取器。然而，仅基于视觉的 SSL 模型仍需在多样化的标注数据集上针对特定任务进行微调，这限制了其在标注数据量少的场景中的可扩展性，尤其是在罕见癌症亚型分类任务中。

近期，视觉语言模型（Vision-Language Model，VLM）的兴起为计算病理学开辟了新范式，为癌症诊断提供了新途径。通过联合利用视觉和文本数据，视觉语言模型将自由文本描述作为病理图像表示学习的监督信号，这有可能在数据稀疏的情况下提高诊断的准确性。这种方法能够增强泛化能力，并减少对大量标注数据集的依赖，从而解决仅基于视觉的模型在区分复杂癌症亚型方面的局限性。为了创建视觉和语言的联合嵌入空间，现有的模型是在从内部资源（例如 MI-Zero、CONCH 和 PRISM）或公共网站（如 Twitter 的 PLIP 和 YouTube 视频的 QuiltNet）收集的病理图像-文本对上进行训练的，采用简单的对比学习方法将图像与其对应的说明进行对齐。

尽管在各种下游任务中取得了令人瞩目的表现，但现有的病理学视觉语言模型，包括 PLIP 和 QuiltNet，由于病理图像文本数据集（例如 OpenPath 和 Quilt1M）规模相对较小，仍面临重大局限。与通用计算机视觉中使用的庞大数据集相比，这些专门针对病理学的资源规模要小得多，而且往往来自非专业网站，导致数据噪声大、质量有限，例如，这些图像所附带的注释往往简短、无结构且缺乏全面的医学知识。这些缺陷阻碍了模型准确识别和区分各种疾病表现及其相应病理特征的能力。

零样本癌症诊断是病理学视觉语言基础模型的关键下游应用，非常适合诊断罕见肿瘤且仅有少量标注病例的场景。现代基础模型通常以整个切片图像（WSI）的小网格块为输入，在仅视觉模型中整合嵌入特征，在视觉语言模型中整合预测标签，以得出最终的诊断决策。虽然视觉语言模型通过明确识别癌变网格块提供了更具解释性的方法，但其在诊断罕见疾病方面的表现仍有限。

视觉语言基础模型，在计算病理学领域展现出了巨大潜力，但它们主要依赖数据驱动，缺乏对医学知识的明确整合。

该研究推出了一个基础模型——KEEP（KnowledgE-EnhancedPathology），它系统地将疾病知识融入到癌症诊断的预训练中。

KEEP 利用一个包含 11454 种疾病和 139143 个属性的全面疾病知识图谱，将数百万个病理图像文本对重新组织成 143000 个语义结构化的组，这些组与疾病本体论层次结构相一致。这种知识增强型预训练使视觉和文本表示在层次语义空间中对齐，从而能够更深入地理解疾病关系和形态学模式。在 18 个公共基准（超过 14000 张全切片图像）和 4 个机构的罕见癌症数据集（926 例）上，KEEP 一直优于现有的基础模型，在罕见癌症亚型上表现出显著优势。这些结果确立了知识增强型视觉语言建模作为推进计算病理学的强大范式。