打开网易新闻 查看精彩图片

编辑 | ScienceAI

在人工智能跨界医疗的浪潮中,如何赋能视觉语言模型(VLM)去 “看懂” 多种类型的医学影像,并在疾病诊断、病灶分析等任务中给出可信解释,已成关键挑战。

近期,来自埃默里大学、南加州大学等机构的联合研究团队基于 DeepSeek 强化学习提出了一套医疗 VLM 策略,称之为 “Med-R1”,通过鼓励模型在 “推理过程” 上不断探索,大大提升了跨模态、跨任务的泛化能力。本文将结合实验结果和推理案例,为大家展示 DeepSeek 在医疗 VLM 中的实战成效。

打开网易新闻 查看精彩图片

论文地址:https://arxiv.org/html/2503.13939v1

一、DeepSeek:让医疗 VLM 从 “记忆答案” 到 “探索推理”

在传统的有监督微调(SFT)中,模型往往只需直接匹配训练集中预先标注的 “标准答案”,容易在单一场景上过拟合,缺乏跨模态或跨任务的适应能力。

DeepSeek 强化学习通过 Group Relative Policy Optimization(GRPO)机制,让模型在回答同一个问题时生成多条推理路径,对它们进行相对评分、比较,并基于预定义的临床规则来给出奖励。

奖励一:输出中是否含有格式化 “思考过程” 和 “最终答案”。

奖励二:最终答案与标准是否匹配。

借助这些奖励,模型不再只盯住 “答案对不对”,还会持续优化 “推理链完整性”,使其在面对全新图像模态或新任务时,也能有条理地分析并输出更可信的结论。

二、实验设计:八大影像模态 + 五大问题类型

论文中,研究者使用了一个多模态医疗影像数据集 OmniMedVQA,覆盖了 CT、MRI、X 光、超声、皮肤镜、眼底照相(Fundus)、OCT、显微镜图像(Microscopy) 等八种常见的医疗影像模态,并包含五大类临床问题:

1. 成像模态识别

2. 解剖结构识别

3. 疾病诊断

4. 病灶分级

5. 其他生物学属性(如组织特征、病理指标等)

测试方式:

  • 跨模态测试:只训练其中一种影像模态,再看模型对其余七种未见过的影像能否保持高准确率。
  • 跨任务测试:只针对一种任务(如 “疾病诊断”)训练,再评估它在其他任务上的泛化能力。

研究者将 DeepSeek 强化学习得到的 Med-R1 模型,与多种基线进行对比:包括通用 VLM(BLIP-2、InstructBLIP、Qwen2-VL 等)和已有的医疗 VLM(Med-Flamingo、MedVInT、LLaVA-Med 等),评测它们在不同影像、不同任务下的推理准确率。

打开网易新闻 查看精彩图片

图 1: 展示了 VQA 数据中 8 种不同模态和 5 不同任务的设置

三、重要结果速览

1. 全面领先于同等规模或更大规模模型

下表展示了 Med-R1 与其他模型在八大影像模态上的整体准确率:

打开网易新闻 查看精彩图片

图 2: 测试并比较了不同模型在 8 种模态的泛化性

可以看到,Med-R1 在 2B 参数量的体量下,就超过了 72B(大了 36 倍)模型的零样本表现,可谓 “小体量却有大能量”。

2. 跨任务泛化大幅提升

在五种临床任务(成像模态识别、解剖结构识别、疾病诊断、病灶分级、其他生物学属性)中,Med-R1 与 SFT 方法相比,平均准确率提升了约 11.25 个百分点;若与零样本方式相比,优势更为明显。

特别是对 “疾病诊断” 这样的核心任务,Med-R1 在训练后不仅能保持高精度,还能带动对其它任务类型(如解剖结构识别)产生良好的迁移性。

打开网易新闻 查看精彩图片

图 3: 测试并比较了不同模型在 5 种 VQA 任务的泛化性

四、推理过程与案例展示

Med-R1 有一个显著特点:会在输出中展示标签所代表的推理思路,让医生能一窥模型思考过程。以下为两个示例:

1. 模态识别示例

  • 输入:一张乳房 X 光片,问题:“这是哪种成像方式?”
  • 模型输出:光成像结构,胸大肌等阴影可见...
  • 图中显示乳房组织,是典型的 X

X-Ray

模型先从纹理特征、视图角度等方面做分析,最终得出这是 “Mammogram(乳房 X 光)”。

2. 疾病诊断示例

  • 输入:一张腹部 CT 扫描,问题:“诊断最可能是什么?”
  • 模型输出:
  • 在 CT 图像右下方可观察到高密度结石影,典型位置符合肾结石路径...

Urolithiasis(泌尿系结石)

先说明在图像中发现 “高密度结石” 特征,再基于临床常识推断出泌尿系结石。这种在回答时自带推理过程的方式,有助于临床专家在审核时快速定位模型的 “思路”。

打开网易新闻 查看精彩图片

图 4: 展示了 Med-R1 推理及回答的例子

五、展望:让强化学习进一步驱动医疗影像智能

DeepSeek 及其在医疗视觉语言模型上的应用,展示了 “RL+VLM” 在跨模态、跨任务中的潜力。与传统有监督方法相比,强化学习能更好地鼓励模型探索,学到更通用的推理机制和更清晰的输出解释。

  • 更大规模数据融合:未来可尝试在 “AI 医生” 框架下,将电子病历、实验室检查等信息整合进推理过程。
  • 更细粒度的奖励策略:可考虑融入更复杂的临床规则,进而进一步提高模型决策的安全性与可信度。

随着医疗影像数据量的爆发与多模态研究的深化,DeepSeek 式的强化学习策略或将为下一代医疗 AI 奠定更坚实的技术基石。