复旦、上海AI实验室与交大：AI医生实现罕见病思维学习能力提升|ai实验室|交大|全国肿瘤|医学|医生|复旦|罕见病

这项由复旦大学计算机科学与人工智能学院、上海人工智能实验室、上海交通大学CMIC实验室及人工智能学院、上海交通大学医学院附属第六人民医院放射科，以及上海交通大学医学院人工智能医学研究院联合开展的研究，以预印本形式发布于2026年4月，论文编号为arXiv:2604.11547，感兴趣的读者可通过该编号查阅完整原文。

医生的成长需要大量病例积累，见得越多，判断越准。然而有一类疾病，几乎每个医生一辈子都难得遇上几次——那就是罕见病。当一位患者带着极为罕见的症状出现在诊室，连经验丰富的医生都可能茫然无措，更何况是刚刚开始学医的AI？这正是这项研究想要解决的核心困境。研究团队提出了一个名为MedSSR的框架，用来帮助AI医疗大模型突破罕见病学习的天花板，同时还大幅降低了训练这类模型所需的时间和金钱成本。

**一、罕见病难题：AI医生的盲区**

要理解这项研究的价值，得先弄清楚为什么现有的AI医疗模型在罕见病上表现不佳。

医学领域的AI模型，和所有AI一样，是靠"刷题"来学习的。研究团队对现有医学数据集做了统计，结果相当扎眼：在将近二十万道医学题目中，只有22%属于需要真正动脑筋推理的题目，而这22%里专门涉及罕见病的，仅仅占3%。也就是说，在近二十万道题的"教材"里，罕见病推理题只有区区几千道。这个比例，就像一个医学生在整个求学期间只看过三个罕见病病例，然后就被要求独立诊断了。

更糟糕的是，当研究团队测试现有几种最先进的AI医疗模型时，发现了一个令人沮丧的规律：无论用什么方法训练，模型在常见病上的表现提升幅度总是远大于罕见病。即使采用目前最强的有监督训练方式（业内称之为"全监督GRPO"），罕见病任务的提升幅度也突破不了3%这个天花板。这不是个别现象，而是行业性困境。

为什么会这样？逻辑很简单：AI学习靠数据，没有足够的罕见病数据，AI就无法真正理解罕见病的推理模式。就像你没法通过反复刷简单的加减法题目来学会微积分一样，数据的稀缺直接限制了模型的能力上限。

**二、老方法的代价：又贵又不好使**

面对这个困境，业内的主流解决思路是什么呢？

目前最流行的做法，是花钱"请教"GPT-4这类超级强大的商业AI，让它帮忙生成详细的推理过程（业内称之为"思维链"或CoT），然后把这些推理过程喂给待训练的AI模型，让它先通过监督学习打好基础，再做进一步的强化训练。

这个方法有两个致命的问题。其一是贵。研究团队计算过，用这种方法生成一个样本，平均需要消耗超过1300个token的API调用量（token可以理解为AI计算的基本单位，token越多，费用越高）。其二是效果有限，尤其在罕见病这个本就稀缺的领域，仅仅"请教"一个同样不太了解罕见病的超级AI来生成推理过程，效果自然也打折扣。

于是研究团队问了一个关键问题：我们能不能换一条路？既不依赖昂贵的API调用，又能让AI真正学会处理罕见病？

**三、MedSSR的思路：一个"自学成才+精准补课"的双轨方案**

MedSSR的核心逻辑，可以用一个学生备考的故事来理解。

设想一个聪明的学生，他手头有一套旧版教材（现有医学数据集），里面大多数题目是送分的背诵题，真正烧脑的推理题很少，而且涉及某些冷门考点（罕见病）的题目几乎没有。老师告诉他，考试会考很多罕见病的推理题。

这个学生有两个核心任务：第一，弄到更多罕见病推理题来练习；第二，找到一种高效的学习方式，既能用这些新题自我训练，又不让自己在刷题过程中走偏（比如养成"猜答案"的坏习惯）。MedSSR就是为了完成这两个任务而设计的。

整个框架由两个紧密配合的部分组成。第一部分是"知识增强型数据合成"，专门解决"题目来源"的问题。第二部分是"半监督强化学习训练策略"，专门解决"如何高效学习"的问题。

**四、造题：用罕见病知识"量身定制"训练题**

先来看造题这部分。

研究团队首先建立了一个庞大的医学知识库，整合了四大权威来源：PubMed数据库中的最新生物医学研究文章、涵盖通用医学概念的维基百科、包含临床实践摘要的StatPearls，以及多本权威医学教科书。与此同时，他们从四个大型权威罕见病数据库（包括欧洲罕见病数据库Orphanet、美国在线遗传病数据库OMIM、美国国家罕见疾病组织数据库，以及中国罕见病目录）中提取并整理出一份包含12,445种罕见病的疾病列表。

造题的流程是这样的：从现有医学数据集中随机抽取两道真实的推理题，作为"种子题目"；然后判断是否需要生成罕见病相关内容，这个判断由一个概率阈值α（取值0到1之间）来控制。如果随机生成的数值低于α，系统就从罕见病列表里挑一种疾病，去医学知识库里检索与该疾病最相关的文献片段；检索到的知识，连同两道种子题目，一起作为输入，送给GPT-4.1来生成一道全新的推理题目。如果随机数值不低于α，则只用两道种子题目来造题，不注入罕见病知识。通过调节α的大小，研究团队可以精确控制最终合成数据集中罕见病题目所占的比例。

这里有一个精妙之处：请注意，GPT-4.1被用来造题，而不是生成推理过程。造一道题所需的API调用量，远低于为这道题生成完整的推理链条。研究数据显示，这种方式每个样本的平均token消耗不到350，仅为传统方法的四分之一左右。钱省了，题的质量却更高，因为题目直接锚定在经过专业知识库支撑的医学事实上，而不是依赖AI凭空生成的推理想象。

为了验证这些合成题目的质量，研究团队邀请了八位执业医师（四位资深、四位初级）对随机抽取的200道合成题进行评估，评估维度包括题目正确性、是否有害以及临床合理性（1至5分制）。评估结果显示，仅有0.5%的题目被认定有误，且该题目同时被标记为潜在有害；平均临床合理性评分高达4.80分（满分5分）。研究团队还进一步扩大了评估规模，对500道题的评估结果同样保持稳定：错误率0.80%，有害率0.60%，平均合理性评分4.85分。这说明知识增强的合成流程能够产出高质量、临床可信的训练数据。

**五、贴标签：让AI自己给自己的练习题打分**

有了题目，下一步是给题目配上答案，这样AI才能在训练时知道自己答对没有。

传统方法是花大价钱雇人标注，或者请昂贵的商业API来生成详细的推理过程。MedSSR的做法更聪明：让AI自己给自己打分。

具体来说，研究团队用待训练的AI模型（即"策略模型"的基础版本）对每一道合成题独立回答八次，然后用"少数服从多数"的投票规则，把八次回答中出现最多次的答案定为该题的"伪标签"答案。这个过程叫做"离线多数投票"。

为什么要特别强调"离线"？这里有一个重要的训练稳定性问题。研究团队发现，如果在训练过程中实时让模型投票、实时更新伪标签（即"在线投票"），模型很快就会钻空子：它学会了在八次回答中全部给出相同的答案，因为这样保证能赢得投票、获得奖励，但这其实是一种"作弊"，不需要真正理解题目。这种现象在学术上叫做"奖励黑客"，通俗说就是AI找到了不用真正学习也能拿高分的漏洞。

而离线投票的妙处在于：标签在训练开始之前就已经确定，训练过程中不会改变。AI找不到通过操控投票结果来作弊的机会，只能老老实实地通过提升推理能力来获得奖励。研究团队的实验证实，离线投票下的训练曲线稳定增长，可以持续超过1000个训练步骤而不出现崩溃，与在线投票下奖励虚高、模型性能实际下滑的灾难性结果形成鲜明对比。

**六、两阶段训练：先激活内功，再借助外力**

拿到了合成题目和伪标签，再加上原有的真实医学数据集（这部分有人工标注的正确答案），研究团队设计了一个分阶段的训练流程。

第一阶段，用合成题目和伪标签进行"自监督强化学习"。这个阶段的核心目标是激活模型内部已有的推理潜力。AI在学习过程中会尝试回答合成题，再把自己的答案和伪标签对比，答对了就得奖励，答错了就受惩罚，然后通过GRPO算法（一种高效的策略优化方法）不断调整自己的推理策略。这个阶段的奖励信号来自模型自身，是一种"内向型"学习。

第二阶段，再用真实数据集和人工标注的正确答案进行"有监督强化学习"。这个阶段借助外部真实答案进一步打磨和扩展模型能力，把它从"自己摸索"的阶段推向"外部矫正"的阶段。两个阶段合在一起，构成了论文标题中的"半监督强化学习"——一半靠自己（合成数据+伪标签），一半靠外力（真实数据+真实标签）。

研究团队把这种训练顺序称为"由内到外"的学习课程：先激发内在潜力，再借助外力突破上限。他们通过消融实验（即逐一去掉某个设计组件，看性能如何变化的实验）验证了这个顺序的必要性：如果把两个阶段的顺序倒过来（先有监督、后自监督），或者把两类数据混合在一起不分阶段训练，最终性能均低于"自监督→有监督"的两阶段设计。

**七、实验结果：罕见病提升幅度突破了天花板**

研究团队在两个主流开源大模型上测试了MedSSR：来自阿里巴巴的Qwen3-8B-Base，以及Meta的Llama-3.1-8B-Instruct。评测范围覆盖了11个医学基准测试，包括五个有训练集的数据集（MedMCQA、MedQA、BioASQ、HeadQA、PubMedQA）和六个纯评测数据集（MMLU-Med、MedXpertqa、Medbullets、NEJM、Lancet）。此外，研究团队还构建了一个专门针对罕见病的评测集RareDis-Sub，将其中的题目细分为七类：症状、病因、诊断、相关疾病、治疗、影响范围和其他。

在罕见病任务上，MedSSR的表现令人振奋。以Qwen3-8B为基础模型，MedSSR相比全监督基线平均提升了5.93个百分点；以Llama-3.1-8B为基础，平均提升了3.70个百分点。这不仅远超此前所有方法，更直接打破了此前3%提升幅度的天花板。在七个罕见病子类中，诊断类和病因类题目的提升尤为显著，分别超过了13个和10个百分点（Qwen版本）。

在通用医学任务上，MedSSR同样保持了强劲表现。Qwen版本在九个通用医学基准上平均提升3.91个百分点，Llama版本平均提升2.27个百分点，且在所有九个数据集上均超越了全监督基线，没有出现"顾此失彼"的问题。这说明通过提高罕见病数据比例来强化罕见病能力，并不会对通用医学能力造成明显损害。

与现有的专业医疗AI模型相比，MedSSR训练出的模型表现也全面领先。无论是HuatuoGPT-o1-8B、UltraMedical-3.1-8B、MedReason-8B还是MedPRM-8B，在罕见病和通用医学两个维度上，MedSSR均取得了更高的平均分。

**八、如何调配罕见病比例：25%是最优解**

研究团队还系统地研究了一个实际问题：合成数据集中，罕见病题目的比例应该设置为多少？

他们分别测试了0%、13%、25%、33%和50%五种比例。其中13%对应的是不做任何知识注入时的自然产出比例（完全依赖种子题目的随机抽样），0%则是完全不生成罕见病相关内容。

结果呈现出一个"倒U型"曲线。随着罕见病比例从0%提升到33%，罕见病任务的性能持续上升，在33%时达到峰值；通用医学性能则在13%时达到峰值，之后随罕见病比例上升而下滑。当罕见病比例达到50%时，两类任务的性能都开始下降。综合来看，25%是罕见病提升与通用性能保持的最优平衡点，因此成为论文主实验中的默认配置。

进一步分析13%和25%之间的差异（即知识注入的纯粹影响），可以发现：知识注入使七类罕见病题目均获得了显著提升，平均增益达2.29个百分点；而在通用医学数据集上，有三个数据集出现了小幅提升，另外几个则有轻微下滑，平均影响仅为-0.21个百分点。罕见病方向的大幅收益远超通用性能的微小损耗，这说明定向知识注入是一种高效且可控的能力增强手段。

**九、一个问只造题不造推理链的方案能赢过完整的SFT吗？**

面对这个问题，研究团队做了一组直接对比实验，在Llama-3.1-8B上测试两种方案：一是MedSSR中"只合成题目+自监督强化学习"的方案（43K条合成数据）；二是传统的"合成完整推理链+监督微调（SFT）"方案（使用HuatuoGPT-o1公开的20K条CoT数据集，训练3个epoch）。

结果是：MedSSR的方案在全部测试的八项任务中均优于SFT方案。无论是通用医学任务（BioASQ、MedQA、Medbullets、Lancet、NEJM），还是罕见病子类（病因、相关疾病、诊断、影响范围），MedSSR版本的得分均高于SFT版本。这意味着，不生成推理链的方案不仅更便宜，反而效果更好。直觉上似乎反常，但背后的逻辑是：强化学习让模型通过自己的探索和试错来内化推理能力，而不是去死记硬背外部生成的推理过程，前者产生的理解更扎实。

**十、能否扩展到更大的模型？**

为了检验MedSSR是否仅仅是针对特定模型规模的"偶然奏效"，研究团队在Qwen3模型系列的四个规模上都做了实验：1.7B、4B、8B和14B（B代表参数量，越大意味着模型越强大，但训练成本也越高）。

结果相当一致。在罕见病任务上，四个规模的模型在MedSSR训练后平均提升幅度均超过了10个百分点（1.7B的提升是10.19%，4B是10.14%，8B是10.92%，14B是10.02%）。在通用医学任务上，提升幅度随模型规模增大而有所增加：1.7B约提升8.5%，8B约提升10.6%，14B约提升10.5%。这种规律性暗示，模型越大，其内部潜藏的医学知识越丰富，通过MedSSR这种训练方式被激活的效果也越好。整体而言，MedSSR展现出了良好的跨规模通用性。

**十一、相同训练成本下，MedSSR依然领先**

有读者可能会问：MedSSR的训练用了43K合成数据加上43K真实数据，一共86K条，而全监督基线只用了43K条真实数据。这两者的数据量不一样，比较公平吗？

研究团队对这个问题做了专门的控制实验。他们把全监督基线也扩展到86K数据量，即在原来的43K推理题基础上，再加入另外43K条从已有数据集中筛选出的真实数据。结果发现，即便把全监督基线的数据量翻倍，其性能平均只提升了1.12个百分点，远低于MedSSR在相同数据量下实现的3.91个百分点提升。原因也很清楚：额外加入的43K真实数据大多属于记忆型题目，并不适合推理训练，实际能学到的东西有限。而MedSSR的43K合成数据是专门针对推理能力、定向设计的，训练效率更高。

说到底，这项研究的最大意义或许并不在于某个具体的数字，而在于它提供了一种思路转变：AI医疗模型的训练瓶颈，不一定要靠人工标注更多数据来突破，也可以靠"聪明造题"加"高效自学"来跨越。对于罕见病这类现实中本就难以积累大量数据的领域，这种思路尤为珍贵。

当然，研究团队也坦承了几处局限。由于算力限制，实验最大只做到了14B规模，更大的模型仍有待验证。此外，合成数据虽然通过了医师评估，但尚未经过全量的专家核查，距离真实临床部署还需要更严格的验证。研究团队明确指出，MedSSR目前主要面向学术研究目的，任何实际临床应用都需要经过严格的医学验证和专业监督。

归根结底，这项研究在医疗AI的一个棘手角落里开出了一条新路：让AI能真正学会思考那些连医生都觉得陌生的罕见病，而且这条路比以往更经济、更稳定、更有效。感兴趣的读者可以通过arXiv编号2604.11547查阅完整论文，源代码也已在GitHub上公开（搜索"tdlhl/MedSSR"即可找到）。

Q&A

Q1：MedSSR训练出的模型能直接用于真实临床诊断吗？

A：目前还不能直接用于临床。研究团队明确说明，MedSSR框架主要面向学术研究，目的是提升医疗AI的推理能力。任何实际临床部署都需要经过严格的医学安全验证和专业医生的监督才能进行，现阶段的实验结果仅证明了模型在标准医学基准测试上的性能提升。

Q2：MedSSR合成的医学题目会不会包含错误的医学知识？

A：出错的概率极低，但不为零。研究团队邀请了八位执业医师对200道合成题进行评估，发现仅有0.5%的题目存在错误。后续对500道题的扩展评估中错误率也仅为0.8%。虽然生成质量较高，但研究团队也承认全量专家核查尚未完成，因此在训练过程中设计了后续有监督阶段来纠正因错误伪标签引入的偏差。

Q3：离线多数投票和在线多数投票在实际训练效果上有多大差距？

A：差距非常显著。实验显示，在线投票方式下，模型训练初期奖励值快速飙升至接近满分，但实际性能却大幅下降，说明模型学会了"作弊"——在每次回答中输出相同答案来操控投票结果。而离线投票下，奖励和性能曲线均稳步上升，训练超过1000步后依然保持稳定增长，与使用真实标签训练的效果高度相似。