哈佛急诊分诊试验证明AI诊断优于真人医生|分诊|医生|哈佛|急诊|患者隐私|治疗

在医疗剧中，从《急诊室的故事》里的乔治·克鲁尼到《急诊室风云》中的诺亚·怀尔，急诊科医生长期被塑造为拯救生命的英雄形象。但一项来自哈佛的最新研究显示，在高压的急诊分诊情境中，人工智能系统在诊断准确性上已经超越了人类医生，这一结果被研究者形容为将“重塑医学”的技术性转折点。

这项发表在《科学》期刊上的研究，由哈佛医学院团队主导，独立专家认为，它标志着人工智能在临床推理能力上的“真正进步”，不仅仅是通过考试或解决人工构造的测试题。研究采用了大规模试验设计，将数百名医生与一套大型语言模型（LLM）进行对比，重点评估在急诊分诊和长期诊疗规划等关键场景中的表现差异。

在其中一项核心实验中，研究团队选取了波士顿一所医院急诊室的76名真实就诊患者案例。 AI 系统和一组由两名人类医生组成的团队，被提供完全相同的标准电子病历记录，包括生命体征数据、人口学信息以及护士对就诊原因的几句简要描述。在仅凭这些有限信息进行初始诊断的情境下，AI 在 67% 的病例中给出了准确或非常接近的诊断，而人类医生的正确率仅在 50%–55% 之间。

研究指出，AI 的优势在信息极度有限、需要迅速作出判断的分诊场景中表现得尤为突出。当为 AI 和医生提供更为详尽的临床信息后，AI（使用的是 OpenAI 的 o1 推理模型）的诊断准确率进一步提升至 82%，而人类专家的准确率则在 70%–79% 之间，不过这一差异在统计学上并不显著。

除了急诊分诊外，AI 在制定长期治疗方案方面同样展现出优于医生的表现。在另一项试验中，研究团队让 AI 与 46 名医生共同审阅五个临床案例，任务包括设计抗生素使用方案以及规划临终关怀流程等长期管理计划。结果显示，AI 所给出的治疗方案得分显著更高，评分为 89%，而依赖传统资源（如搜索引擎）的医生得分仅为 34%。

尽管如此，研究者强调，现在还远未到“宣布急诊医生下岗”的时候。这项研究仅比较了在可被文本化的病历数据层面，AI 与人类的诊断能力，并未纳入许多在真实临床情境中至关重要的信号，例如患者的痛苦表情、情绪状态、肢体语言乃至与家属互动等非文本信息。换言之，这项研究中，AI 更接近一名基于纸面资料给出第二意见的“幕后台前医生”。

“我不认为我们的发现意味着 AI 会取代医生。”研究的第一作者之一、哈佛医学院 AI 实验室负责人阿琼·曼赖（Arjun Manrai）表示。 “我认为它意味着，我们正在见证一种极具深远影响的技术变革，而这种变革将重塑整个医疗体系。” 同为主要作者的亚当·罗德曼（Adam Rodman）则是波士顿贝斯以色列女执事医学中心的一名临床医生，他称大型语言模型是“近几十年来最具影响力的技术之一”。他预言，在未来十年，AI 不会取代医生，而是将与医生、患者共同构成一种新的“三方照护模式”——“医生、患者与人工智能系统”。

研究中还呈现出一个颇具代表性的临床案例：一名患者因肺部血栓和症状恶化来到医院。人类医生最初判断是抗凝药物治疗失败，导致病情进展；但 AI 在阅读病史后注意到一个关键点——患者罹患红斑狼疮，这种自身免疫疾病也可能引发肺部炎症。经过进一步检查，AI 的推断被证明是正确的。

AI 在临床中的应用并非停留在实验室阶段，已有大量医生在实践中使用。根据美国医学会最近发布的研究，近五分之一的美国医生已经在诊断过程中引入 AI 辅助工具。在英国，皇家内科医师学会的一项最新调查显示，16% 的医生每天使用此类技术，另有 15% 每周使用一次或多次，其中“临床决策支持”是最常见的使用场景之一。

不过，英国医生在接受调查时也表达了对 AI 的高度警惕，尤其是对 AI 误诊风险和责任归属问题的担忧。尽管全球范围内已有数十亿美元涌入医疗 AI 创业公司，但一旦 AI 出错，责任如何界定、由谁承担后果，仍是亟待解决的制度空白。 “目前并不存在一个正式的问责框架。”罗德曼指出，同时他强调，患者在面对生死抉择或复杂治疗方案时，“终究还是希望由人类来引导、陪伴和解释”。

来自爱丁堡大学医学信息学中心的联合主任尤恩·哈里森（Ewen Harrison）教授认为，这项研究具有重要意义，因为它表明“这些系统不再只是通过医学考试或应对人工构造的测试题”。在他看来，AI 正逐步成为临床医生的有用“第二意见工具”，尤其适用于需要全面梳理潜在诊断、避免漏诊重要病因的场景。

同时，英国谢菲尔德大学数学与物理科学学院助理教授邢炜（Wei Xing）也提醒，研究中的部分结果显示，医生在与 AI 协作时，可能会在不自觉中对 AI 结论产生依赖，弱化独立思考。 “随着 AI 在临床环境中的常规使用，这种倾向可能会进一步增强。”他指出。邢炜还强调，研究并未充分披露 AI 在哪些类型患者中表现更差，例如是否对老年患者或非英语母语患者的诊断更为吃力，这些都是评估安全性时不可忽视的问题。

因此，尽管哈佛试验结果令人振奋，但它并未证明 AI 已经安全到可以常规独立用于临床诊疗，更不意味着公众应转向免费 AI 工具以替代专业医疗建议。在可预见的未来，AI 更可能作为一种高性能“智能听诊器”和“第二大脑”，嵌入由人类主导的医疗体系之中，推动诊疗更加精准、高效，同时也把关于责任、伦理与信任的新问题摆到了社会面前。