打开网易新闻 查看精彩图片

撰文丨王聪

编辑丨王多鱼

排版丨水成文

用于从临床影像数据中定义病理学的现有深度学习模型依赖于专家注释,且在开放临床环境中缺乏泛化能力

2026 年 1 月 6 日,中国科学院深圳先进技术研究院医学成像科学与技术系统全国重点实验室王珊珊研究员团队与澳门科技大学/温州医科大学张康教授团队合作(中国科学院深圳先进技术研究院博士生杨浩、清华大学助理教授周洪宇为共同第一作者),在 Nature 子刊Nature Biomedical Engineering上发表了题为:A multimodal vision–language model for generalizable annotation-free pathology localization 的研究论文。

研究团队提出了一种通用视觉-语言模型——AFLoc(Annotation-Free pathology Localization),其最大特点在于,无需医生提前标注病灶,即可自动在医学影像中“找病灶”,实现病例定位,且该模型具有强大的泛化能力,在五种不同类型病理图像的定位任务中甚至超越了人类基准。

打开网易新闻 查看精彩图片

在这项最新研究中,研究团队提出了一种通用视觉-语言模型——AFLoc(Annotation-Free pathology Localization),用于实现无需标注的病理定位。

AFLoc 的核心优势在于基于多层次语义结构的对比学习,该方法将多粒度医学概念与丰富的图像特征进行全面对齐,从而在不依赖专家图像标注的情况下适应病理的多样化表现形式。

打开网易新闻 查看精彩图片

研究团队在包含 22 万对影像-报告的胸部 X 射线数据集上进行了初步实验,并在涵盖 34 种胸部病理的 8 个外部数据集上进行了验证。结果表明,AFLoc 在无需标注的定位和分类任务中均优于当前最先进方法

此外,研究团队还评估了 AFLoc 在其他模态图像上的泛化能力,包括组织病理学和视网膜眼底图像。研究显示,AFLoc 展现出强大的泛化能力,在五种不同类型病理图像的定位任务中甚至超越了人类基准。

这些成果凸显了 AFLoc 在降低标注需求以及适应复杂临床环境应用方面的潜力。

论文链接

https://www.nature.com/articles/s41551-025-01574-7

打开网易新闻 查看精彩图片