罕见病指患病率低于1/2000的疾病,目前已发现超7000种,其中约80%由遗传因素导致,全球累计影响超3亿人。由于罕见病临床表现异质性强、单病种发病率低且临床医生认知不足,导致诊断极其困难;患者平均需经历5年以上的“诊断历程”才能确诊,期间伴随反复转诊、误诊和不必要的干预,严重影响治疗与预后并带来沉重身心与经济负担。

近年来,人工智能(AI)系统的迅速进展为疾病诊断提供了变革性潜力,但现有罕见病AI诊断工具面临多学科知识融合不足、训练数据稀缺、知识更新滞后、推理过程不可追溯等问题,基于智能体的大语言模型(LLM)则为解决上述问题提供了新方向。它能协同多种工具与知识库、整合各类资源,并具备模块化和可解释的特点,可实现透明、可追溯的临床诊断流程。

近日,上海交通大学谢伟迪孙锟余永国张娅团队在Nature上发表题为“An agentic system for rare disease diagnosis with traceable reasoning”的文章,团队合作开发了一个基于LLM的多智能体系统DeepRare,专为罕见病鉴别诊断提供决策支持。该系统能整合文本、表型、基因等多源临床数据,结合40余种专业工具与最新医学知识库,生成排序的诊断假设,并提供透明、可追溯至权威医学证据的完整推理过程。在覆盖多地区、14个医学专科、2,919种罕见病的9个数据集DeepRare展现出优越性能:在基于人类表型本论(HPO)的任务中,平均Recall@1达57.18%,优于次优方法23.79%;在多模态测试中,其在168例病例上的Recall@1为69.1%,显著高于传统工具Exomiser。专家评审显示,DeepRare推理链与临床判断的一致性达95.4%,证实其推理过程的有效性与可追溯性。总之,该研究不仅推动了罕见病诊断的发展,也为LLM智能系统赋能临床诊疗提供了重要范式。

打开网易新闻 查看精彩图片

DeepRare架构采用三层设计第一层是基于LLM(默认采用DeepSeek-V3)的中央主机,配备记忆库,负责统筹整个诊断流程并整合各类证据进行决策;第二层是多个专用智能体服务器,各自管理专属工具集,执行表型/基因型分析、标准化处理、知识与病例检索等专项任务;第三层为异质的网络级医疗资源层,集成PubMed、Orphanet、OMIM等权威医学数据库和网络资源,为诊断提供可追溯的核心证据。

DeepRare支持文本、HPO表型、VCF基因数据等多模态输入,先由中央主机分解任务并检索证据,生成初步诊断假设;再通过自反思循环验证、修正或推翻假设,迭代优化直至得出可靠结论;最终输出一个排序后的候选疾病列表,并为每个诊断提供清晰、可追溯至具体医学证据的推理过程。

打开网易新闻 查看精彩图片

图1. DeepRare框架

为全面评估DeepRare的性能,研究团队构建了迄今最全面的罕见病诊断基准之一,共纳入9个罕见病诊断数据集的6,401例临床病例,其中7个为公共数据集,病例来源覆盖亚洲、北美洲、欧洲等地区,涉及2,919种罕见病、14个医学专科。研究设置了三类对照基线,包括传统罕见病诊断工具、通用LLM、推理增强LLM、医学专用LLM以及其他智能体系统;并以首检召回率(Recall@1)、前三检召回率(Recall@3)等为核心评估指标。

在基于HPO的诊断任务中,DeepRare平均Recall@1达57.18%,Recall@3达65.25%,远超次优方法(推理LLM)及传统模型。实验得出四点关键结论:LLM方法优于传统工具;推理增强LLM表现更佳;通用LLM因参数规模与数据多样性反超医学微调模型;DeepRare的多智能体架构显著优于所有单一模型方法。

在多个公开数据集(RareBench-MME、MyGene2、MIMIC-IV-Rare)上,DeepRare的各项召回指标均大幅领先现有最优方法;在新华医院内部临床数据集上,与多款可本地部署的大模型相比,DeepRareRecall@1Recall@3分别达到58%和71%显著优于其他方法

打开网易新闻 查看精彩图片

图2. 按HPO进行跨数据集评估及DeepRare性能比较

研究团队将测试病例划分为14个医学专科,分析了DeepRare在不同领域的诊断性能。结果显示,DeepRare在几乎所有专科均显著优于对比方法。在内分泌系统类别,Top-1诊断准确率达60%,在消化系统类别,Top-1准确率达49%,均远高于次优方法。值得注意的是,DeepRare在不同专科间存在性能差异在肾脏和泌尿系统表现最佳,准确率达66%;而在肺和呼吸系统相对较差,准确率仅为31%。

接下来,研究团队对2,919种疾病按病例数量进行分层分析。对于病例数>10的疾病,DeepRave的Recall@1均高于所有基线模型;对于病例数≤10的“长尾”疾病,DeepRare31.8%实现了高诊断准确率,远超通用及医疗专用LLM。

为验证DeepRare的真实临床价值,研究团队在新华医院163例罕见病临床病例中,将其与5位资深罕见病专家进行比较。DeepRareRecall@1达64.4%、Recall@5达78.5%,均超越医生平均水平,成为首个在罕见病表型分析与诊断中表现超越人类专家的计算模型

研究团队还评估了DeepRare整合HPO与基因检测数据的诊断性能。在新华医院、湖南医院病例中,整合基因信息后,DeepRareRecall@1分别提升至69.1%63.6%,显著高于经典外显子分析工具Exomiser,证实其在罕见病综合分析中的优越性能。

打开网易新闻 查看精彩图片

图3. DeepRare的诊断性能

研究团队邀请10位罕见病副主任医师对DeepRare在180例随机病例生成的推理链进行盲法评估,以分析其推理过程的可靠性。结果显示,DeepRare参考证据的平均准确率达95.4%,且在各数据集上均保持高性能。失败案例分析发现,DeepRare最主要的失败原因是推理权重错误,其次是表型模拟诊断,推理事实错误和证据关联错误仅各占2.5%。

打开网易新闻 查看精彩图片

图4. 人类专家对DeepRare可追溯推理链验证

为验证DeepRare设计的有效性,研究团队进行了消融实验。结果显示,更换DeepRare中央主机的底层LLM对系统性能无影响,体现了架构的通用性;与基础LLM相比,智能体系统带来了平均28%以上的Recall@1性能提升。对内部模块的分析表明,无论是相似病例检索、网络知识整合还是自反思模块,均为最终性能贡献了不可或缺的力量,整合所有模块的完整系统表现最优。

打开网易新闻 查看精彩图片

图5. 消融实验

综上所述,DeepRare突破了传统罕见病诊断工具可解释性差、泛化能力不足等痛点,实现了诊断推理的全流程可追溯,其性能在多维度验证中均超越现有方法,在临床病例中表现甚至优于资深罕见病专家。DeepRare的成功证明了智能体系统在处理复杂医学问题上的巨大潜力,为未来开发集诊断、治疗预后预测于一体的综合罕见病管理平台奠定基础。

参考文献:

Zhao, W., Wu, C., Fan, Y. et al. An agentic system for rare disease diagnosis with traceable reasoning. Nature (2026). https://doi.org/10.1038/s41586-025-10097-9

01

02

03

GWAS荟萃分析结果发布

04

05

快点亮"在看”吧!