近日,北京航空航天大学自动化科学与电气工程学院王磊教授联合团队中日友好医院病理科/透彻未来首席技术官王书浩博士在《科学通报》发表了题为“通用视觉基础模型在计算病理学”的评述论文,系统综述了计算病理学(Computational Pathology, CPath)中视觉基础模型(Vision Foundation Models, VFMs)的构建方法,分析了自监督学习如何赋能模型泛化能力,并展示了其在下游任务中的优异性能。文章探讨了VFMs在多尺度表征、任务适应性等方面的挑战,并展望了多模态与临床高效部署等未来研究方向。

打开网易新闻 查看精彩图片

在现代医学,尤其是癌症诊断中,病理科医生是手握“最终裁决权”的关键角色。一块小小的组织切片,在显微镜下蕴藏着海量的细胞形态、组织结构信息,是医生判定良恶、分型分级的金标准。随着数字化浪潮席卷而来,传统的玻璃切片被扫描成全片扫描数字图像(Whole-Slide Image, WSI)。这些WSI可达千兆像素(Gigapixel)级别,其蕴含的数据量远超人眼所能穷尽。计算病理学(Computational Pathology, CPath)利用人工智能(Artificial Intelligence, AI)辅助医生,从“数据的海洋”中挖掘出肉眼难以察觉的诊断线索。然而,传统的监督学习AI模型依赖海量的、由病理专家亲手勾画的像素级标注作为“标准答案”。这也是CPath领域十年来最大“痛点”:标注瓶颈(Annotation Bottleneck)。因缺乏标注而无法训练出最强大的AI模型,严重限制了AI在真实临床环境中的泛化能力与鲁棒性。

学术界曾尝试使用迁移学习来绕过瓶颈,即借用在自然图像(如 ImageNet)上预训练好的模型。但自然图像与病理图像之间存在显著差异,因此这种方法的性能提升受到了限制。真正的突破源自于AI领域的一场范式革命:自监督学习(Self-Supervised Learning, SSL)。SSL 的核心思想是“让数据自己教AI”。它不再依赖病理专家的精细标注,而是利用海量的、未标注的组织病理图像,通过精心设计的“猜谜”任务来学习图像的内在结构和深层特征。正是在这一背景下,视觉基础模型(Vision Foundation Models, VFMs)应运而生。

作为一种普适高效的图像表征新范式,VFMs 旨在从海量、多样化、且通常是无标注的病理数据中学习通用的视觉表征。这种由 SSL 赋能的新范式,在提升数据利用效率、增强模型跨任务与跨领域的泛化能力方面展现出了巨大潜力。CPath 领域的 VFM 研究正处于增长爆发期,新模型和新方法层出不穷。本文对不同的模型的技术路径、优势和局限进行了系统综述,深入算法“内核”,勾勒出一条清晰的演进路径:从“实例判别”出发(早期模型的核心是“对比学习”,学习区分“自己”和“他人”);深化为“语义浓缩”(新一代模型进化为“自蒸馏”和“掩码重建”,模型从自身学习并理解局部纹理);最终迈向“上下文建模”(最新的模型开始解决“近视眼”问题,第一次尝试从“图块”级别跃升到“全切片”级别的上下文理解)。文章旨在为 CPath 研究者提供一份指南,清晰地指出不同技术范式的内在逻辑与演进方向。

文章指出了VFM真正从“学术奇迹”走向“临床现实”所面临的几个关键挑战。一个核心挑战在于SSL范式与病理特性之间的适配性鸿沟。团队分析指出,当前CPath的VFM成功,很大程度上是通用视觉领域先进SSL方法的直接迁移。然而,不同的SSL范式存在明显的任务偏好性:以对比学习为代表的方法(如REMEDIS和CTransPath)擅长学习“全局”高层级语义,因此在“切片级”分类任务中表现出色;但其将整个图块视为单一实例的本质,使其对细粒度信息不敏感。另一方面,以MIM建模范式为代表的方法(如UNI所采用的DINOv2)通过重建任务学习局部纹理,在“分割”等需要精确定位的任务中具有天然优势,但可能对全局判别性特征的捕捉略显不足。因此,将通用SSL范式“生搬硬套”到CPath,而忽略其内在机制与特定病理任务的适配性问题,是当前研究中亟需反思的。这种挑战并不仅仅停留在算法层面。计算与存储资源的双重瓶颈同样严峻。VFMs是“吞金兽”,如文章表1所示,其训练动辄需要数十块顶级GPU(如A100 80GB)并行数周。这不仅是“训练瓶颈”,将许多算力有限的学术机构排除在外;“部署瓶颈”更为严峻。单个WSI存储可达数GB,VFM推理也需要高显存GPU,这在许多基层医疗机构中并非标准配置。这一从训练到推理的全链路资源依赖,是VFMs走向临床应用的根本障碍。

此外,文章还探讨了计算病理学未来多模态融合的发展需求,一个更强大的病理基础模型需要融合病理图像(形态)、基因测序(遗传)和电子病历(临床)等信息。然而,当前的多模态模型(如PLIP, CONCH)仍处于非常初级的阶段,其核心瓶颈在于缺乏高质量、大规模的病理视觉-语言配对数据集。未来,数字病理的全面推进和电子病历的普及,将为构建更大规模、更高质量的多模态数据集提供坚实基础,有望从根本上解决当前的数据瓶颈。

北京航空航天大学自动化科学与电气工程学院王磊教授和中日友好医院病理科/透彻未来首席技术官王书浩博士为文章通讯作者。北京航空航天大学自动化科学与电气工程学院博士生付哲铭为文章第一作者。该研究得到了中国国家高水平医院临床研究专项资金、北京市“AI+健康”培育创新项目、北京市“科技新星”计划以及2023 年度中国青海省科技项目的资助。

打开网易新闻 查看精彩图片

文章信息

付哲铭,笪倩,王伟,等.通用视觉基础模型在计算病理学的研究进展. 科学通报, 2026.

https://www.sciengine.com/doi/10.1360/CSB-2025-5045.

打开网易新闻 查看精彩图片

转载、投稿请留言

| 关注科学通报 | 了解科学前沿