成效初显！基于DeepSeek强化学习的医疗VLM策略来了|deepseek|vlm|实验|推理|模态

编辑 | ScienceAI

在人工智能跨界医疗的浪潮中，如何赋能视觉语言模型（VLM）去 “看懂” 多种类型的医学影像，并在疾病诊断、病灶分析等任务中给出可信解释，已成关键挑战。

近期，来自埃默里大学、南加州大学等机构的联合研究团队基于 DeepSeek 强化学习提出了一套医疗 VLM 策略，称之为 “Med-R1”，通过鼓励模型在 “推理过程” 上不断探索，大大提升了跨模态、跨任务的泛化能力。本文将结合实验结果和推理案例，为大家展示 DeepSeek 在医疗 VLM 中的实战成效。

论文地址：https://arxiv.org/html/2503.13939v1

一、DeepSeek：让医疗 VLM 从 “记忆答案” 到 “探索推理”

在传统的有监督微调（SFT）中，模型往往只需直接匹配训练集中预先标注的 “标准答案”，容易在单一场景上过拟合，缺乏跨模态或跨任务的适应能力。

DeepSeek 强化学习通过 Group Relative Policy Optimization（GRPO）机制，让模型在回答同一个问题时生成多条推理路径，对它们进行相对评分、比较，并基于预定义的临床规则来给出奖励。

奖励一：输出中是否含有格式化 “思考过程” 和 “最终答案”。

奖励二：最终答案与标准是否匹配。

借助这些奖励，模型不再只盯住 “答案对不对”，还会持续优化 “推理链完整性”，使其在面对全新图像模态或新任务时，也能有条理地分析并输出更可信的结论。

二、实验设计：八大影像模态 + 五大问题类型

论文中，研究者使用了一个多模态医疗影像数据集 OmniMedVQA，覆盖了 CT、MRI、X 光、超声、皮肤镜、眼底照相（Fundus）、OCT、显微镜图像（Microscopy）等八种常见的医疗影像模态，并包含五大类临床问题：

1. 成像模态识别

2. 解剖结构识别

3. 疾病诊断

4. 病灶分级

5. 其他生物学属性（如组织特征、病理指标等）

测试方式：

跨模态测试：只训练其中一种影像模态，再看模型对其余七种未见过的影像能否保持高准确率。
跨任务测试：只针对一种任务（如 “疾病诊断”）训练，再评估它在其他任务上的泛化能力。

研究者将 DeepSeek 强化学习得到的 Med-R1 模型，与多种基线进行对比：包括通用 VLM（BLIP-2、InstructBLIP、Qwen2-VL 等）和已有的医疗 VLM（Med-Flamingo、MedVInT、LLaVA-Med 等），评测它们在不同影像、不同任务下的推理准确率。

图 1: 展示了 VQA 数据中 8 种不同模态和 5 不同任务的设置

三、重要结果速览

1. 全面领先于同等规模或更大规模模型

下表展示了 Med-R1 与其他模型在八大影像模态上的整体准确率：

图 2: 测试并比较了不同模型在 8 种模态的泛化性

可以看到，Med-R1 在 2B 参数量的体量下，就超过了 72B（大了 36 倍）模型的零样本表现，可谓 “小体量却有大能量”。

2. 跨任务泛化大幅提升

在五种临床任务（成像模态识别、解剖结构识别、疾病诊断、病灶分级、其他生物学属性）中，Med-R1 与 SFT 方法相比，平均准确率提升了约 11.25 个百分点；若与零样本方式相比，优势更为明显。

特别是对 “疾病诊断” 这样的核心任务，Med-R1 在训练后不仅能保持高精度，还能带动对其它任务类型（如解剖结构识别）产生良好的迁移性。

图 3: 测试并比较了不同模型在 5 种 VQA 任务的泛化性

四、推理过程与案例展示

Med-R1 有一个显著特点：会在输出中展示标签所代表的推理思路，让医生能一窥模型思考过程。以下为两个示例：

1. 模态识别示例

输入：一张乳房 X 光片，问题：“这是哪种成像方式？”
模型输出：光成像结构，胸大肌等阴影可见...
图中显示乳房组织，是典型的 X

X-Ray

模型先从纹理特征、视图角度等方面做分析，最终得出这是 “Mammogram（乳房 X 光）”。

2. 疾病诊断示例

输入：一张腹部 CT 扫描，问题：“诊断最可能是什么？”
模型输出：
在 CT 图像右下方可观察到高密度结石影，典型位置符合肾结石路径...

Urolithiasis（泌尿系结石）

先说明在图像中发现 “高密度结石” 特征，再基于临床常识推断出泌尿系结石。这种在回答时自带推理过程的方式，有助于临床专家在审核时快速定位模型的 “思路”。

图 4: 展示了 Med-R1 推理及回答的例子

五、展望：让强化学习进一步驱动医疗影像智能

DeepSeek 及其在医疗视觉语言模型上的应用，展示了 “RL+VLM” 在跨模态、跨任务中的潜力。与传统有监督方法相比，强化学习能更好地鼓励模型探索，学到更通用的推理机制和更清晰的输出解释。

更大规模数据融合：未来可尝试在 “AI 医生” 框架下，将电子病历、实验室检查等信息整合进推理过程。
更细粒度的奖励策略：可考虑融入更复杂的临床规则，进而进一步提高模型决策的安全性与可信度。

随着医疗影像数据量的爆发与多模态研究的深化，DeepSeek 式的强化学习策略或将为下一代医疗 AI 奠定更坚实的技术基石。

成效初显！基于DeepSeek强化学习的医疗VLM策略来了

热搜

热门跟贴

热搜

热门跟贴

相关推荐

DeepSeek：模型训练、优化及数据处理

企业如何部署并深度应用 DeepSeek？看这篇就够啦！

用ChatiSS查体，接DeepSeek看病，AI让中医变简单

DeepSeek+数据治理，实现数据治理全链路智能化升级

Deepseek对于施一公的锐评，真的太敢说了！不留情面的AI

瞒不住了！DeepSeek”第一投资方浮出水面，25年有望实现10倍增长

码一下！DeepSeek使用指令合集

普通人如何玩转DeepSeek？高效提问技巧+独家使用攻略一篇全搞定

老师都在用的DeepSeek AI备课“方法”，老师工作效率提升10倍！

AI赋能教育：DeepSeek如何重塑中小学教学质量体系，助力教师

DeepSeek 征服院士，中国 AI 技术书写传奇篇章

10分钟上手！DeepSeek超全操作指南，从菜鸟到高手的保姆级教程

流式深度学习终于奏效了！强化学习之父Richard Sutton力荐

MIT开发高效算法大幅降低强化学习训练成本

研究人员打造即插即用型框架，将多智能体强化学习引入大语言模型

给语音模型戴上「眼镜」，错误率降低12.5%！人大CMU最新开源 | AAAI 2025

模型参数作知识通用载体，MergeNet离真正的异构知识迁移更进一步

超级Agent，鸣枪起跑

AI视觉图灵时代来了！字节OmniHuman，一张图配上音频生成视频

微软AI模型MatterGen能根据需求生成新材料