撰文丨王聪
编辑丨王多鱼
排版丨水成文
一种疾病折磨了数年时间,期间看了大量医生,却始终得不到一个确切的病因,这是许多罕见病患者正在经历着的“诊断奥德赛”(漫长曲折的诊断历程)。
罕见病(rare disease)——被定义为患病率低于 1/2000 的疾病,罕见病虽然单一病种患者稀少,但作为一个整体,全球有超过3 亿罕见病患者,涉及7000 多种不同的罕见病类型,其中约80%由遗传因素导致。
尽管罕见病的总体负担沉重,但由于其临床表现的多样性、个体患病率低以及临床医生对其了解有限,这些疾病仍然难以诊断。患者往往要经历平均超过 5 年时间才最终确诊,期间会多次转诊、被误诊以及接受不必要的治疗,所有这些都导致治疗延误和不良后果。这些挑战凸显了开发可扩展、准确且易于解读的诊断工具的迫切需求——在这方面,多智能体系统(multi-agent system)近期取得的进展具有变革性的潜力。
2026 年 2 月 18 日,上海交通大学人工智能学院/上海人工智能实验室谢伟迪,上海交通大学医学院附属新华医院孙锟、余永国,上海交通大学人工智能学院/上海人工智能实验室张娅作为共同通讯作者(Zhao Weike、Wu Chaoyi、Fan Yanjie 为论文共同第一作者),在国际顶尖学术期刊Nature上发表了题为:An agentic system for rare disease diagnosis with traceable reasoning 的研究论文。
该研究针对罕见病“确诊难、漏诊率高”的全球性难题,开发了了全球首个AI 智能体罕见病循证推理诊断系统——DeepRare,首次在罕见病诊断的准确性上,超越了拥有十年以上经验的临床专家。该研究不仅推进了罕见病诊断的发展,为全球三亿罕见病患者带来了实实在在的希望,更是 AI 在医疗领域的一个里程碑,展示了大语言模型驱动的 AI 智能体系统如何重塑当前的临床工作流程。
困境:为何罕见病诊断如此之难?
罕见病,通常指患病率低于两千分之一的疾病,虽然单一种类患者稀少,但已知的罕见病超过 7000 种,其中约 80% 与基因相关。它们之所以诊断困难,主要原因在于:
1、临床异质性高:症状复杂多样,常涉及多个身体系统。
2、人类认知有限:任何一位医生毕生遇到的特定罕见病例都可能寥寥无几。
3、病例数据稀缺:难以收集足够的数据来训练传统 AI 模型。
4、知识更新迅速:每年有约 260-280 种新的罕见遗传病被发现。
这导致了罕见病患者往往在反复转诊、误诊和无效治疗中耗尽精力与财力,错失最佳治疗时机。
破局:DeepRare——一个会“思考”和“查证”的 AI 诊断工具
DeepRare并非一个普通的 AI 模型,而是一个基于大语言模型(LLM)的多智能体系统(multi-agent system),整合了 40 多种专业工具和最新的知识来源,用于支撑罕见病的鉴别、诊断和决策,你可以把它理解成一个由 AI 驱动的“虚拟专家会诊中心”。
它的核心能力在于:
理解复杂输入:无论是患者主诉的自由文本、标准化的医学表型术语,还是基因测序的原始数据,它都能处理。
多智能体协作:系统内部有多个“专业智能体”——有的负责从海量文献中检索最新证据,有的负责在病例库中寻找相似患者,有的专门分析基因变异。一个中央“调度员”(大语言模型)协调它们有序工作。
生成可追溯的推理:它不会只扔给你一个病名。相反,它会像资深专家一样,给出一步步的诊断推理过程,并且为每一步结论附上来自权威医学文献、指南或病例的可验证引用链接。这一点对于建立临床信任至关重要。
此外,为了让提高稳健性,DeepRare 进一步采用了一个自我反思循环(self-reflective loop),以反复评估假设,从而减少过度诊断并减轻 AI 幻觉现象。
验证:表现如何?数据说话
研究团队在迄今为止最全面的罕见病基准上对 DeepRare 进行了严格测试,数据涵盖来自亚洲、北美和欧洲的 6401 个真实临床案例,涉及 2919 种罕见病类型。
关键结果令人振奋:
全面领先:在仅基于症状表型的诊断任务中,DeepRare 的首次诊断准确率(Recall@1)平均达到 57.18%,显著优于其他 15 种方法,比第二名高出 23.79%。
基因数据是“利器”:当结合患者的基因测序数据时,诊断能力大幅跃升。在上海交通大学医学院附属新华医院的数据集上,准确率从仅基于症状表型时的 39.9% 提升至 69.1%,优于现有的专业生物信息学工具 Exomiser(55.9%)。
超越人类专家:在与 5 名资深罕见病专家的“人机对比”中,DeepRare 在首次诊断准确率上实现了超越(64.4% vs 54.6%)。专家可以查阅搜索引擎,而 DeepRare 仅依据相同的标准化症状信息。
推理链可靠:更难得的是,其生成的诊断推理链经过专家评审,证据准确性与相关性获得了 95.4% 的高认可度。这意味着该多智能体系统不仅“猜”得准,而且“想”得明白、有理有据。
DeepRare 的诊断性能
人类专家对 DeepRare 诊断系统中可追溯推理链和故障模式的验证
意义:不止于诊断,更在于改变诊疗生态
DeepRare 的价值远不止提升了准确率这一数字,更重要的是——
缩短诊断旅程:为一线医生,尤其是非专科医生,提供了强大的决策支持,有望将数年的诊断过程缩短至数天甚至更短。
赋能基层医疗:在医疗资源匮乏的地区,该系统能极大弥补罕见病专科经验的不足,促进医疗公平。
透明化构建信任:可追溯的推理链让医生不再是“盲信” AI 结果,而是可以复核和验证,这将成为 AI 临床落地不可或缺的“安全带”。
示范技术融合:它成功展示了如何将前沿的 AI 智能体技术与专业的医学知识工具、数据库深度融合,为未来医疗 AI 的发展提供了范本。
此外,研究团队已开发了易用的网页版应用,正在尝试作为医生的“诊断副驾驶”(diagnostic copilot)投入临床使用,该研究的代码也已开源,促进领域共同进步。
DeepRare 的出现,标志着 AI 正在医疗的“辅助工具”,迈向能够进行复杂推理、提供透明化诊断建议的“合作伙伴”。对于每一位在迷茫中求索的罕见病患者而言,一盏更明亮、更智能的指路之灯已经点亮。这场对抗罕见病的“诊断奥德赛”,终于迎来了一个可能改变游戏规则的新队友。
论文链接:
https://www.nature.com/articles/s41586-025-10097-9
热门跟贴