
编辑 | ScienceAI
在人工智能跨界医疗的浪潮中,如何赋能视觉语言模型(VLM)去 “看懂” 多种类型的医学影像,并在疾病诊断、病灶分析等任务中给出可信解释,已成关键挑战。
近期,来自埃默里大学、南加州大学等机构的联合研究团队基于 DeepSeek 强化学习提出了一套医疗 VLM 策略,称之为 “Med-R1”,通过鼓励模型在 “推理过程” 上不断探索,大大提升了跨模态、跨任务的泛化能力。本文将结合实验结果和推理案例,为大家展示 DeepSeek 在医疗 VLM 中的实战成效。

论文地址:https://arxiv.org/html/2503.13939v1
一、DeepSeek:让医疗 VLM 从 “记忆答案” 到 “探索推理”
在传统的有监督微调(SFT)中,模型往往只需直接匹配训练集中预先标注的 “标准答案”,容易在单一场景上过拟合,缺乏跨模态或跨任务的适应能力。
DeepSeek 强化学习通过 Group Relative Policy Optimization(GRPO)机制,让模型在回答同一个问题时生成多条推理路径,对它们进行相对评分、比较,并基于预定义的临床规则来给出奖励。
奖励一:输出中是否含有格式化 “思考过程” 和 “最终答案”。
奖励二:最终答案与标准是否匹配。
借助这些奖励,模型不再只盯住 “答案对不对”,还会持续优化 “推理链完整性”,使其在面对全新图像模态或新任务时,也能有条理地分析并输出更可信的结论。
二、实验设计:八大影像模态 + 五大问题类型
论文中,研究者使用了一个多模态医疗影像数据集 OmniMedVQA,覆盖了 CT、MRI、X 光、超声、皮肤镜、眼底照相(Fundus)、OCT、显微镜图像(Microscopy) 等八种常见的医疗影像模态,并包含五大类临床问题:
1. 成像模态识别
2. 解剖结构识别
3. 疾病诊断
4. 病灶分级
5. 其他生物学属性(如组织特征、病理指标等)
测试方式:
- 跨模态测试:只训练其中一种影像模态,再看模型对其余七种未见过的影像能否保持高准确率。
- 跨任务测试:只针对一种任务(如 “疾病诊断”)训练,再评估它在其他任务上的泛化能力。
研究者将 DeepSeek 强化学习得到的 Med-R1 模型,与多种基线进行对比:包括通用 VLM(BLIP-2、InstructBLIP、Qwen2-VL 等)和已有的医疗 VLM(Med-Flamingo、MedVInT、LLaVA-Med 等),评测它们在不同影像、不同任务下的推理准确率。

图 1: 展示了 VQA 数据中 8 种不同模态和 5 不同任务的设置
三、重要结果速览
1. 全面领先于同等规模或更大规模模型
下表展示了 Med-R1 与其他模型在八大影像模态上的整体准确率:

图 2: 测试并比较了不同模型在 8 种模态的泛化性
可以看到,Med-R1 在 2B 参数量的体量下,就超过了 72B(大了 36 倍)模型的零样本表现,可谓 “小体量却有大能量”。
2. 跨任务泛化大幅提升
在五种临床任务(成像模态识别、解剖结构识别、疾病诊断、病灶分级、其他生物学属性)中,Med-R1 与 SFT 方法相比,平均准确率提升了约 11.25 个百分点;若与零样本方式相比,优势更为明显。
特别是对 “疾病诊断” 这样的核心任务,Med-R1 在训练后不仅能保持高精度,还能带动对其它任务类型(如解剖结构识别)产生良好的迁移性。

图 3: 测试并比较了不同模型在 5 种 VQA 任务的泛化性
四、推理过程与案例展示
Med-R1 有一个显著特点:会在输出中展示标签所代表的推理思路,让医生能一窥模型思考过程。以下为两个示例:
1. 模态识别示例
- 输入:一张乳房 X 光片,问题:“这是哪种成像方式?”
- 模型输出:光成像结构,胸大肌等阴影可见...
- 图中显示乳房组织,是典型的 X
X-Ray
模型先从纹理特征、视图角度等方面做分析,最终得出这是 “Mammogram(乳房 X 光)”。
2. 疾病诊断示例
- 输入:一张腹部 CT 扫描,问题:“诊断最可能是什么?”
- 模型输出:
- 在 CT 图像右下方可观察到高密度结石影,典型位置符合肾结石路径...
Urolithiasis(泌尿系结石)
先说明在图像中发现 “高密度结石” 特征,再基于临床常识推断出泌尿系结石。这种在回答时自带推理过程的方式,有助于临床专家在审核时快速定位模型的 “思路”。

图 4: 展示了 Med-R1 推理及回答的例子
五、展望:让强化学习进一步驱动医疗影像智能
DeepSeek 及其在医疗视觉语言模型上的应用,展示了 “RL+VLM” 在跨模态、跨任务中的潜力。与传统有监督方法相比,强化学习能更好地鼓励模型探索,学到更通用的推理机制和更清晰的输出解释。
- 更大规模数据融合:未来可尝试在 “AI 医生” 框架下,将电子病历、实验室检查等信息整合进推理过程。
- 更细粒度的奖励策略:可考虑融入更复杂的临床规则,进而进一步提高模型决策的安全性与可信度。
随着医疗影像数据量的爆发与多模态研究的深化,DeepSeek 式的强化学习策略或将为下一代医疗 AI 奠定更坚实的技术基石。
热门跟贴