AI诊断准确率首超医生：67% vs 50%

爬虫饲养员

2026-05-01 03:13 ·北京

《科学》期刊周四发表的一项研究显示，OpenAI的推理模型在真实医疗场景诊断中，准确率超过三分之二，而资深医生只有一半。

这不是实验室玩具。研究人员用的是波士顿一家医院急诊科的电子病历，病例从未公开，模型和医生都是第一次见。

谁在做这个测试

研究团队来自波士顿贝斯以色列女执事医疗中心。他们设计了一套残酷的对比实验：让OpenAI的o1推理模型、旧版GPT-4、执业医生和住院医师，同场竞技诊断真实病例。

o1是OpenAI去年推出的新架构，专门强化"推理"能力——不是简单匹配答案，而是模拟人类医生的逐步思考过程。

结果很刺眼。在急诊科初始分诊环节，o1的诊断准确率超过三分之二。两位专家级主治医师的正确率，大约只有一半。

旧版GPT-4的表现更差，o1相对它提升显著。

加州大学旧金山分校医学系主任罗伯特·瓦赫特没参与研究，但评价很高。他在邮件中写道：「现代AI在识别正确诊断和下一步操作上，将优于旧版大语言模型和医生，这一点现已无可争议。」

瓦赫特刚出版了《巨大飞跃：AI如何改变医疗以及这对我们的未来意味着什么》。他的判断有分量。

但实验有个关键缺陷

瓦赫特也泼了冷水。他说：「问题在于这能在多大程度上复现真实生活，答案是中等程度，但并非完美。」

研究作者自己也承认限制：实验只用纯文本输入，没包含视觉和听觉线索——而医生诊断高度依赖这些。

患者的痛苦表情、呼吸节奏、皮肤颜色，CT片和心电图，这些都没进数据集。病例是书面的，而且经过人工"清理"，比急诊室的混乱现实整齐得多。

瓦赫特的原话很生动：「生成式AI或许开始整合这些输入，但目前，对书面且常被人为'净化'的临床病例场景的测试，并不等于走进急诊室应对混乱。去看看《匹兹堡医护前线》就知道了。」

这部医疗剧今年刚播，讲急诊室的极端压力。瓦赫特用它说明：真实医疗不是干净的选择题。

为什么作者仍喊"紧急"

基于这些发现，研究团队强调了一个「紧急」需求：进一步研究和前瞻性临床试验，以确定AI系统如何改善临床实践和患者结局。

他们的判断写在论文里：「大语言模型的快速改进速度，对临床医学的科学和实践具有重大影响。」

同一期《科学》还配发了澳大利亚弗林德斯健康与医学研究所两位专家的评论文章。他们没参与研究，但同意其紧迫性。

不过他们明确反对用AI取代医生。设想的模式是协作：AI提供能力，医生保留监督、情境判断和问责。

评论写得直接：「如果没有经过充分证明的有效性、公平性和安全性，许多AI系统将不足以用于临床。」

67% vs 50%的真正含义

这个数字对比需要拆解。

o1的67%是在"初始分诊"环节——患者刚进来，信息最有限的时候。医生50%的准确率，是两位专家级主治医师的表现，不是住院医师（后者通常更低）。

这意味着在最吃信息、最考验快速判断的环节，AI已经能给出比资深人类更稳的答案。

但"稳"不等于"能用"。研究没测后续治疗建议，没测复杂共病，没测AI犯错时的代价。

更关键的是，医疗决策的容错率极低。一个漏诊的胸痛患者，可能是心梗，也可能是焦虑发作——AI和医生都可能在概率上"对"，但后者会观察脸色、听语气、摸脉搏，这些目前无法量化输入模型。

瓦赫特说的"中等程度复现"，精确描述了现状：技术曲线陡峭，但落地曲线平缓。

产品视角：谁在押注这个未来

从商业逻辑看，这项研究释放了两个信号。

第一，"推理"正在成为AI医疗的新壁垒。o1相对GPT-4的显著提升，说明单纯堆参数的时代正在过去，架构创新——让模型像医生一样逐步思考——才是差异化关键。

第二，医院数据正在成为核心资产。贝斯以色列女执事医疗中心能拿真实急诊病历做测试，这种数据获取能力是学术机构和创业公司难以复制的。

OpenAI显然在布局。o1的发布节奏、医疗场景的优先测试，都指向同一个判断：临床决策支持是通用大模型最容易商业化的垂直场景之一。

但阻力同样真实。FDA审批、医疗责任归属、医生职业认同、患者信任——这些都不是技术问题，但都会决定产品生死。

澳大利亚专家的评论文章提供了一个中间路线：不取代，但重构 workflow。AI做初筛和概率排序，医生做最终决策和人际沟通。这种分工下，67%的准确率可能足够释放价值——如果它能帮医生把50%提升到80%，或者把诊断时间从30分钟压缩到5分钟。

研究作者呼吁的"前瞻性临床试验"，本质是要求用真实世界的ROI（投资回报率）来验证技术。这是医疗AI从论文走向产品的必经之路。

瓦赫特的书名已经说明立场：《巨大飞跃》。他认为变革不可避免，但节奏和形态仍开放。

这项研究的价值，在于给出了第一个硬数据锚点：在特定条件下，AI确实能超越人类专家。这个"特定条件"的边界在哪里，就是接下来所有产品决策的核心问题。

急诊室的混乱、患者的非语言信号、医疗系统的激励机制——这些变量还没被纳入模型。但67% vs 50%的对比已经存在，它会被记住，会被引用，会成为下一轮融资和采购谈判的筹码。

技术已经跑在前面。现在的问题是，医疗系统愿意以多快的速度，用什么样的代价，去追赶它。

数据收束：研究测试了波士顿医院急诊科的真实病历，o1模型初始分诊准确率超过三分之二，两位专家级主治医师约为一半。作者承认实验仅限文本输入，未包含视觉和听觉线索。瓦赫特评价"现代AI将优于旧版模型和医生"现已无可争议，但补充真实临床环境的复现程度为"中等"。研究团队强调需"紧急"开展进一步临床试验，同期刊评论文章反对取代医生，主张协作模式并强调有效性、公平性和安全性的证明门槛。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴