Nature | 谢伟迪/孙锟/余永国/张娅团队开发首个可追溯罕见病AI诊断系统，能识别超2900种疾病|余永国|医学|国际罕见病日|孙锟|张娅|治疗|谢伟迪|预后

罕见病指患病率低于1/2000的疾病，目前已发现超7000种，其中约80%由遗传因素导致，全球累计影响超3亿人。由于罕见病临床表现异质性强、单病种发病率低且临床医生认知不足，导致诊断极其困难；患者平均需经历5年以上的“诊断历程”才能确诊，期间伴随反复转诊、误诊和不必要的干预，严重影响治疗与预后并带来沉重身心与经济负担。

近年来，人工智能（AI）系统的迅速进展为疾病诊断提供了变革性潜力，但现有罕见病AI诊断工具面临多学科知识融合不足、训练数据稀缺、知识更新滞后、推理过程不可追溯等问题，基于智能体的大语言模型（LLM）则为解决上述问题提供了新方向。它能协同多种工具与知识库、整合各类资源，并具备模块化和可解释的特点，可实现透明、可追溯的临床诊断流程。

近日，上海交通大学谢伟迪、孙锟、余永国、张娅团队在Nature上发表题为“An agentic system for rare disease diagnosis with traceable reasoning”的文章，团队合作开发了一个基于LLM的多智能体系统DeepRare，专为罕见病鉴别诊断提供决策支持。该系统能整合文本、表型、基因等多源临床数据，结合40余种专业工具与最新医学知识库，生成排序的诊断假设，并提供透明、可追溯至权威医学证据的完整推理过程。在覆盖多地区、14个医学专科、2,919种罕见病的9个数据集中，DeepRare展现出优越性能：在基于人类表型本论（HPO）的任务中，其平均Recall@1达57.18%，优于次优方法23.79%；在多模态测试中，其在168例病例上的Recall@1为69.1%，显著高于传统工具Exomiser。专家评审显示，DeepRare推理链与临床判断的一致性达95.4%，证实其推理过程的有效性与可追溯性。总之，该研究不仅推动了罕见病诊断的发展，也为LLM智能系统赋能临床诊疗提供了重要范式。

DeepRare架构采用三层设计，第一层是基于LLM（默认采用DeepSeek-V3）的中央主机，配备记忆库，负责统筹整个诊断流程并整合各类证据进行决策；第二层是多个专用智能体服务器，各自管理专属工具集，执行表型/基因型分析、标准化处理、知识与病例检索等专项任务；第三层为异质的网络级医疗资源层，集成PubMed、Orphanet、OMIM等权威医学数据库和网络资源，为诊断提供可追溯的核心证据。

DeepRare支持文本、HPO表型、VCF基因数据等多模态输入，先由中央主机分解任务并检索证据，生成初步诊断假设；再通过自反思循环验证、修正或推翻假设，迭代优化直至得出可靠结论；最终输出一个排序后的候选疾病列表，并为每个诊断提供清晰、可追溯至具体医学证据的推理过程。

图1. DeepRare框架

为全面评估DeepRare的性能，研究团队构建了迄今最全面的罕见病诊断基准之一，共纳入9个罕见病诊断数据集的6,401例临床病例，其中7个为公共数据集，病例来源覆盖亚洲、北美洲、欧洲等地区，涉及2,919种罕见病、14个医学专科。研究设置了三类对照基线，包括传统罕见病诊断工具、通用LLM、推理增强LLM、医学专用LLM以及其他智能体系统；并以首检召回率（Recall@1）、前三检召回率（Recall@3）等为核心评估指标。

在基于HPO的诊断任务中，DeepRare的平均Recall@1达57.18%，Recall@3达65.25%，远超次优方法（推理LLM）及传统模型。实验得出四点关键结论：LLM方法优于传统工具；推理增强LLM表现更佳；通用LLM因参数规模与数据多样性反超医学微调模型；DeepRare的多智能体架构显著优于所有单一模型方法。

在多个公开数据集（RareBench-MME、MyGene2、MIMIC-IV-Rare）上，DeepRare的各项召回指标均大幅领先现有最优方法；在新华医院内部临床数据集上，与多款可本地部署的大模型相比，DeepRare的Recall@1、Recall@3分别达到58%和71%，显著优于其他方法。

图2. 按HPO进行跨数据集评估及DeepRare性能比较

研究团队将测试病例划分为14个医学专科，分析了DeepRare在不同领域的诊断性能。结果显示，DeepRare在几乎所有专科均显著优于对比方法。在内分泌系统类别，其Top-1诊断准确率达60%，在消化系统类别，其Top-1准确率达49%，均远高于次优方法。值得注意的是，DeepRare在不同专科间存在性能差异，在肾脏和泌尿系统表现最佳，准确率达66%；而在肺和呼吸系统相对较差，准确率仅为31%。

接下来，研究团队对2,919种疾病按病例数量进行分层分析。对于病例数>10的疾病，DeepRave的Recall@1均高于所有基线模型；对于病例数≤10的“长尾”疾病，DeepRare在31.8%中实现了高诊断准确率，远超通用及医疗专用LLM。

为验证DeepRare的真实临床价值，研究团队在新华医院163例罕见病临床病例中，将其与5位资深罕见病专家进行比较。DeepRare的Recall@1达64.4%、Recall@5达78.5%，均超越医生平均水平，成为首个在罕见病表型分析与诊断中表现超越人类专家的计算模型。

研究团队还评估了DeepRare整合HPO与基因检测数据的诊断性能。在新华医院、湖南医院病例中，整合基因信息后，DeepRare的Recall@1分别提升至69.1%、63.6%，显著高于经典外显子分析工具Exomiser，证实其在罕见病综合分析中的优越性能。

图3. DeepRare的诊断性能

研究团队邀请10位罕见病副主任医师对DeepRare在180例随机病例生成的推理链进行盲法评估，以分析其推理过程的可靠性。结果显示，DeepRare参考证据的平均准确率达95.4%，且在各数据集上均保持高性能。失败案例分析发现，DeepRare最主要的失败原因是推理权重错误，其次是表型模拟诊断，推理事实错误和证据关联错误仅各占2.5%。

图4. 人类专家对DeepRare可追溯推理链验证

为验证DeepRare设计的有效性，研究团队进行了消融实验。结果显示，更换DeepRare中央主机的底层LLM对系统性能无影响，体现了架构的通用性；与基础LLM相比，智能体系统带来了平均28%以上的Recall@1性能提升。对内部模块的分析表明，无论是相似病例检索、网络知识整合还是自反思模块，均为最终性能贡献了不可或缺的力量，整合所有模块的完整系统表现最优。

图5. 消融实验

综上所述，DeepRare突破了传统罕见病诊断工具可解释性差、泛化能力不足等痛点，实现了诊断推理的全流程可追溯，其性能在多维度验证中均超越现有方法，在临床病例中表现甚至优于资深罕见病专家。DeepRare的成功证明了智能体系统在处理复杂医学问题上的巨大潜力，为未来开发集诊断、治疗、预后预测于一体的综合罕见病管理平台奠定基础。

参考文献：

Zhao, W., Wu, C., Fan, Y. et al. An agentic system for rare disease diagnosis with traceable reasoning. Nature (2026). https://doi.org/10.1038/s41586-025-10097-9

｜GWAS荟萃分析结果发布

快点亮"在看”吧！