波士顿一家急诊室的76份病历被输入一台AI系统。结果让研究团队愣住——在最难确诊的病例里,这台机器列出正确诊断的概率,超过了资深医生。
这不是科幻场景。2025年4月30日,哈佛大学团队把实验结果发在了《科学》期刊上。他们测试的是OpenAI的o-1预览版,一种能逐步拆解复杂问题的推理模型。论文显示,AI在80%的情况下会把正确答案放进备选清单,而医生的表现明显落后。
但争议立刻炸开。同一所大学的医学研究者Arya Rao公开质疑:机器做的"推理",和医学生学的"推理",根本是两回事。
一场关于AI能否参与临床决策的争论,正在医学界的最高殿堂激烈交锋。
实验设计:三组数据,一个残酷对比
研究团队设计了三层测试,层层加码。
第一层是教科书级难度。他们用了医学教育中的经典症状组合——那些让住院医师夜不能寐的疑难案例。第二层更狠:直接调取真实病历。76名波士顿急诊患者的完整诊疗记录,被脱敏后喂给AI。第三层则横跨历史数据,对比了此前发表在新英格兰医学杂志上的长期疑难病例系列。
三组对手同台竞技:纯AI模型、传统诊断辅助软件、人类临床医生。
图表数据(脚本自动插入图片:http://dingyue.ws.126.net/2026/0501/4339a867j00tebl4s0010d000m800cip.jpg)显示了残酷差距。深色柱代表的AI推理模型o1-preview,正确诊断纳入率逼近80%。浅色柱的传统诊断软件、棕色柱的人类医生,都被甩在身后。
研究作者之一、哈佛大学生物医学数据科学家Arjun Manrai在4月28日的发布会上说:「我们正在见证一项真正深刻的技术变革,它将重塑医学。」
这句话的分量,需要放在具体场景里理解。
核心发现:AI的"灵光一闪"时刻
医学诊断最难的环节,常被外行忽略。
不是从A、B、C选项里挑正确答案。而是在一片空白中,想到"还有D这个可能性"。论文开篇就点破这个痛点:在医学最棘手的病例中,最难的部分不是选对诊断,而是想到它。
这正是AI展现优势的地带。
大语言模型(大型语言模型,LLM)的进化版本——推理模型——被设计成分步思考。它们不像早期AI那样直接蹦答案,而是展示一条思考链:先列出症状群,再排除常见病因,最后指向那些容易被忽视的罕见病。
在急诊场景下,这种能力直接对应临床痛点。一个发热伴皮疹的患者,可能是病毒感染,也可能是药物过敏,还可能是川崎病早期。人类医生受限于认知负荷和记忆检索速度,常在高压下漏掉后两种。AI的"广撒网"策略,反而降低了漏诊概率。
但论文也留了关键伏笔:数据来自多项既往研究,各系统并非审视完全相同的病例集。所有系统只检查了同一长期病例系列的某个子集。这意味着横向对比存在方法论瑕疵,结论需要谨慎解读。
行业背景:五分之一医护已在偷偷用AI
这项研究发布的时间点,恰逢医疗AI的渗透拐点。
2025年的一项全球调查显示,超过2000名受访医生和护士中,五分之一已在复杂病例中把AI当"第二意见"使用。超过半数明确表示想这么干。
需求已经存在。供给正在成熟。唯一卡住的是信任。
临床决策的特殊性在于:错误代价极高,责任归属模糊。AI推荐了一个诊断,医生采纳后出错,算谁的责任?医院信息系统接入第三方模型,患者数据如何脱敏?监管机构对"辅助诊断"和"替代诊断"的边界怎么划?
这些都不是技术问题,却是技术落地的真门槛。
Manrai团队的实验设计,某种程度上是在回应这种焦虑。他们刻意选择了"列出备选诊断"这个低侵入性场景,而非让AI直接拍板。论文结论也刻意收敛:这种AI"适用于辅助诊断",而非取代医生。
反对声音:两种"推理"的根本分歧
质疑来自哈佛医学院内部。
未参与研究的Arya Rao抛出尖锐批评:「当我们说临床推理时,它和道德推理不是一回事。这些模型被优化来做我们称之为推理的序列思考,但这和医学生学的推理完全不同。」
这句话击中了当前AI医疗的核心争议。
医学训练中的临床推理,是因果链条的逐层搭建。为什么先考虑感染而非肿瘤?因为流行病学概率、因为患者年龄、因为症状时序。每一步都有可解释的医学依据,每一步都经得起同行质疑。这种推理的终点不仅是正确诊断,更是诊疗方案的可辩护性。
AI的"推理"是另一套逻辑。它基于海量文本中的模式匹配,生成统计上最可能的答案序列。步骤看起来相似——症状A关联疾病B的概率是C%——但底层没有医学因果模型。它不知道"为什么",只知道"曾经这样"。
Rao的警告指向一个深层风险:如果医生过度依赖AI的"灵光一闪",可能逐渐丧失独立构建诊断假设的能力。医学教育的核心目标,恰恰是培养这种能力。一个只会点击"AI建议"按钮的医生,和会独立思辨的医生,长期看谁能更好地应对未知疾病?
Manrai对批评并不抵触。他明确表态:AI应该辅助而非替代医疗角色。「最终,我认为人类希望由人类来引导他们……度过艰难的治疗决策。」
这个表态的微妙之处在于"引导"二字的权重。AI是工具,医生是决策者——这种分工在纸面上清晰,在急诊室的凌晨三点却可能模糊。当AI连续三次给出被证实正确的建议,医生的心理防线会不会松动?
技术演进:从聊天机器人到推理引擎
理解这场争论,需要追溯技术脉络。
OpenAI的ChatGPT基于大语言模型,2022年底引爆公众对生成式AI的认知。但早期版本有个致命弱点:面对需要多步推导的复杂问题,容易在中间步骤出错,导致最终答案离谱。
o-1系列是2024年推出的"推理模型"迭代。关键改进在于"思维链"(思维链,Chain-of-Thought)技术的工程化。模型被训练成显式展示中间步骤,而非直接输出结论。在数学竞赛、编程挑战等基准测试中,这种架构展现出接近人类专家的水平。
Manrai团队选择o-1预览版,正是看中这种逐步拆解能力在医学场景中的适配性。诊断本身就是典型的多步推理:从主诉出发,扩展鉴别诊断清单,根据检验结果逐一排除,最终锁定最可能病因。
但技术能力的跃升,不等于应用场景的自动解锁。医学有独特的验证体系:随机对照试验、真实世界证据、长期随访数据。AI在静态测试集上的高分,能否转化为患者结局的改善?这是下一批研究必须回答的。
商业逻辑:谁为"第二意见"买单
把实验放回商业视角,线索更清晰。
五分之一医护的自发使用,说明需求端已经成熟。超过半数想正式使用,说明付费意愿存在。剩下的问题是:产品形态和商业模式如何设计?
当前最可能的演进路径,是嵌入电子病历系统的"智能插件"。医生输入主诉和初步检查结果,AI实时生成鉴别诊断建议,标注置信度和关键鉴别点。这种设计最小化工作流程 disruption,也便于责任界定——AI输出明确标注为"建议",最终决策权保留给医生。
收费模式可能走两条路。一是医院或医疗系统集中采购,作为基础设施投入。二是按调用次数计费,类似云计算的API模式。后者的风险在于,可能诱发过度使用:医生为求心安,对每个病例都点一遍AI建议,反而降低诊疗效率。
监管框架是更大的变量。美国FDA对"临床决策支持系统"有分级管理,低风险工具可走510(k)快速通道,高风险则需上市前审批。AI诊断辅助落在哪个区间,将直接影响产品上市节奏。
中国市场的变量同样复杂。三甲医院的信息化预算、基层医疗的人才缺口、医保支付的创新包容度,三者共同决定AI诊断工具的渗透速度。一个可能的差异化场景是:在医疗资源匮乏地区,AI"第二意见"的价值不是超越顶尖专家,而是让基层医生获得接近三甲水平的鉴别诊断能力。
关键节点复盘:从实验室到急诊室的三道坎
梳理时间线,能看清技术落地的真实节奏。
2022年底,ChatGPT发布,大语言模型进入公众视野。医学界的初步反应是警惕:生成式AI的"幻觉"问题——自信地编造不存在的信息——让它直接参与诊断显得危险。
2024年,推理模型o-1系列推出,"思维链"技术缓解了对中间步骤不可控的担忧。这是第一道坎的跨越:从"黑箱输出"到"可追踪推理"。
2025年4月,哈佛团队论文发表,用真实急诊病历验证效果。这是第二道坎:从"基准测试高分"到"临床场景有效"。但论文同时暴露了新问题——不同系统对比的病例集不一致,结论的稳健性存疑。
同期发布的全球医护调查,揭示了第三道坎的紧迫性:用户已经准备好,但产品形态、责任归属、监管框架全部滞后。五分之一的人"偷偷用",说明现有工具要么未获正式批准,要么未接入工作流,处于灰色地带。
下一步的关键节点,可能是监管机构的分类指导文件发布,以及首个获得正式批准的AI诊断辅助产品上市。这两个事件将定义行业的合规基线。
启示:工具理性与医学人文的张力
这场争论的深层结构,是两种价值观的碰撞。
技术乐观派看到效率提升和漏诊减少。在医疗资源紧张、医生 burnout 普遍的当下,AI辅助诊断是缓解系统压力的可行路径。尤其对于那些罕见病、疑难病,AI的"知识广度"可能弥补个体医生的经验局限。
医学人文派担忧能力退化和关系异化。诊断不仅是信息处理,更是医患互动的核心环节。医生询问病史时的微表情观察、触诊时的手感反馈、解释病情时的共情表达,都无法被AI替代。如果技术介入过深,可能侵蚀医学作为"人学"的本质。
Manrai的表态试图调和这种张力:AI辅助,人类主导。但"辅助"的边界在哪里?是仅在医生卡壳时提供建议,还是全程参与生成备选清单?是被动响应查询,还是主动推送预警?
这些设计选择没有标准答案,将塑造未来十年的医疗实践形态。
一个值得追踪的信号是:当AI建议与医生直觉冲突时,决策权如何分配?论文数据显示AI整体表现更优,但具体到单个病例,医生的情境知识可能更准确。系统需要内置的"异议处理"机制,而非简单服从多数。
另一个信号是长期学习效应。如果住院医师从职业生涯早期就依赖AI建议,他们的独立诊断能力会如何演化?这需要纵向队列研究来验证,周期可能长达十年。
回到波士顿急诊室的那76份病历。它们被脱敏、输入、分析,成为论文里的一个数字。但每个数字背后,是一个真实患者在某个深夜的焦虑,是一位医生在时限压力下的判断,是一次可能改变治疗方向的诊断选择。
AI正在学会参与这个过程。它学得有多快、介入有多深、最终被接纳到什么程度,将取决于技术迭代的速度,更取决于医学界对"好的医疗"的定义本身。
当80%的正确率成为新常态,我们是否还愿意容忍那20%的失误?当机器比人更会"想到"病因,诊断的权威该由谁持有?
热门跟贴