谷歌最新Nature论文：AI智能体医生，在疾病管理中胜过人类医生|医生|智能体|治疗|知名企业|谷歌

撰文丨王聪

编辑丨王多鱼

排版丨水成文

基于大语言模型（LLM）的人工智能（AI）系统，在临床环境中展现出日益增长的潜力，不仅能实现精准诊断，还能通过自然且富有同理心的对话方式收集病史，有助于与患者建立可信赖的关系。

尽管已开发出多种用于诊断推理的 AI 模型，但它们在多次就诊疾病管理方面的能力，例如跨多次临床就诊监测疾病进展和治疗反应以及安全用药处方，仍探索不足。

2026 年 6 月 17 日，谷歌 DeepMind 和谷歌研究院在国际顶尖学术期刊Nature上发表了题为：Towards Conversational AI for Disease Management 的研究论文。

该研究强调了基于大语言模型医疗 AI 系统AMIE作为多次就诊疾病管理工具的巨大潜力，其在疾病的管理推理任务中的表现可与人类医生相当，甚至更优。

此前，谷歌开发了一款基于大语言模型（LLM）的医疗 AI 系统——AMIE（Articulate Medical Intelligence Explorer），其在对话式诊断任务中展现出与医生相当的表现水平。

在这项最新研究中，为了提升AMIE在管理推理方面的能力，研究团队开发了一种基于大语言模型的新型智能体系统，该系统包含一个用于同步文本聊天患者对话的共情对话智能体（Dialogue Agent），以及一个执行更深入推理并交叉参考最新临床实践指南和药物目录的管理推理智能体（Mx Agent）。

AMIE 系统概述

系统架构

为将推理根植于权威临床知识，AMIE 利用谷歌的大语言模型Gemini的长上下文能力，将上下文检索与结构化推理相结合，使其输出与最新的临床实践指南及药物处方集保持一致。

接下来，研究团队在一项随机、盲法的虚拟客观结构化临床考试（OSCE）研究中，将 AMIE 与 21 名初级保健医生（PCP）在 100 个多访视病例场景中进行了比较，这些场景旨在反映英国 NICE 指南和 BMJ Best Practice 指南。在由专科医生评估的整体管理决策方面，AMIE 的表现不劣于初级保健医生，而在治疗与检查的精确度、以及与临床指南的一致性和依据性方面，AMIE 均得分更高。

疾病管理质量评估

疾病管理推理能力评估

为基准测试药物推理能力，研究团队开发了RxQA，这是一个源自两个国家（美国、英国）药物处方集的多项选择题基准数据集，并经委员会认证的药剂师验证。结果显示，在“开卷”（可通过检索获取外部信息）情境下和“闭卷”（均不可获取外部信息）情境下，AMIE 和初级保健医生均受益于获取外部信息的能力，但在较高度的问题上，AMIE 的表现优于初级保健医生。

药物推理能力评估

总的来说，这项研究清晰地展示了谷歌的 AMIE 系统的演进轨迹——从最初的对话式诊断 AI 系统，逐步发展为能够处理多次就诊疾病管理的推理系统。

值得一提的是，Nature同期还发表了一篇题为：Towards autonomous medical artificial intelligence agents 的研究论文。

该研究开发了一个名为MIRA（Medical Intelligence for Reasoning and Action）的自主 AI 智能体，它在沙盒化的电子健康记录（EHR）环境中运行，能够遍历广泛的临床操作空间，获取患者病史，下达并解读实验室、影像学和微生物学检查，生成鉴别诊断，并制定包括开具药物、安排手术和住院计划在内的治疗方案。在涵盖多种诊断的真实患者病例模拟中，MIRA 在诊断准确性方面优于人类医生，并做出了符合指南、用药安全且合理的住院决策。这项研究表明，集成了 EHR 的 AI 智能体能够将临床意图转化为结构化且可执行的 EHR 操作，可能使其成为医生更有效的决策支持伙伴。