《科学》期刊周四发表的一项研究显示,OpenAI的推理模型在真实医疗场景诊断中,准确率超过三分之二,而资深医生只有一半。

这不是实验室玩具。研究人员用的是波士顿一家医院急诊科的电子病历,病例从未公开,模型和医生都是第一次见。

打开网易新闻 查看精彩图片

谁在做这个测试

研究团队来自波士顿贝斯以色列女执事医疗中心。他们设计了一套残酷的对比实验:让OpenAI的o1推理模型、旧版GPT-4、执业医生和住院医师,同场竞技诊断真实病例。

o1是OpenAI去年推出的新架构,专门强化"推理"能力——不是简单匹配答案,而是模拟人类医生的逐步思考过程。

结果很刺眼。在急诊科初始分诊环节,o1的诊断准确率超过三分之二。两位专家级主治医师的正确率,大约只有一半。

旧版GPT-4的表现更差,o1相对它提升显著。

加州大学旧金山分校医学系主任罗伯特·瓦赫特没参与研究,但评价很高。他在邮件中写道:「现代AI在识别正确诊断和下一步操作上,将优于旧版大语言模型和医生,这一点现已无可争议。」

瓦赫特刚出版了《巨大飞跃:AI如何改变医疗以及这对我们的未来意味着什么》。他的判断有分量。

但实验有个关键缺陷

瓦赫特也泼了冷水。他说:「问题在于这能在多大程度上复现真实生活,答案是中等程度,但并非完美。」

研究作者自己也承认限制:实验只用纯文本输入,没包含视觉和听觉线索——而医生诊断高度依赖这些。

患者的痛苦表情、呼吸节奏、皮肤颜色,CT片和心电图,这些都没进数据集。病例是书面的,而且经过人工"清理",比急诊室的混乱现实整齐得多。

瓦赫特的原话很生动:「生成式AI或许开始整合这些输入,但目前,对书面且常被人为'净化'的临床病例场景的测试,并不等于走进急诊室应对混乱。去看看《匹兹堡医护前线》就知道了。」

这部医疗剧今年刚播,讲急诊室的极端压力。瓦赫特用它说明:真实医疗不是干净的选择题。

为什么作者仍喊"紧急"

基于这些发现,研究团队强调了一个「紧急」需求:进一步研究和前瞻性临床试验,以确定AI系统如何改善临床实践和患者结局。

他们的判断写在论文里:「大语言模型的快速改进速度,对临床医学的科学和实践具有重大影响。」

同一期《科学》还配发了澳大利亚弗林德斯健康与医学研究所两位专家的评论文章。他们没参与研究,但同意其紧迫性。

不过他们明确反对用AI取代医生。设想的模式是协作:AI提供能力,医生保留监督、情境判断和问责。

评论写得直接:「如果没有经过充分证明的有效性、公平性和安全性,许多AI系统将不足以用于临床。」

67% vs 50%的真正含义

这个数字对比需要拆解。

o1的67%是在"初始分诊"环节——患者刚进来,信息最有限的时候。医生50%的准确率,是两位专家级主治医师的表现,不是住院医师(后者通常更低)。

这意味着在最吃信息、最考验快速判断的环节,AI已经能给出比资深人类更稳的答案。

但"稳"不等于"能用"。研究没测后续治疗建议,没测复杂共病,没测AI犯错时的代价。

更关键的是,医疗决策的容错率极低。一个漏诊的胸痛患者,可能是心梗,也可能是焦虑发作——AI和医生都可能在概率上"对",但后者会观察脸色、听语气、摸脉搏,这些目前无法量化输入模型。

瓦赫特说的"中等程度复现",精确描述了现状:技术曲线陡峭,但落地曲线平缓。

产品视角:谁在押注这个未来

从商业逻辑看,这项研究释放了两个信号。

第一,"推理"正在成为AI医疗的新壁垒。o1相对GPT-4的显著提升,说明单纯堆参数的时代正在过去,架构创新——让模型像医生一样逐步思考——才是差异化关键。

第二,医院数据正在成为核心资产。贝斯以色列女执事医疗中心能拿真实急诊病历做测试,这种数据获取能力是学术机构和创业公司难以复制的。

OpenAI显然在布局。o1的发布节奏、医疗场景的优先测试,都指向同一个判断:临床决策支持是通用大模型最容易商业化的垂直场景之一。

但阻力同样真实。FDA审批、医疗责任归属、医生职业认同、患者信任——这些都不是技术问题,但都会决定产品生死。

澳大利亚专家的评论文章提供了一个中间路线:不取代,但重构 workflow。AI做初筛和概率排序,医生做最终决策和人际沟通。这种分工下,67%的准确率可能足够释放价值——如果它能帮医生把50%提升到80%,或者把诊断时间从30分钟压缩到5分钟。

研究作者呼吁的"前瞻性临床试验",本质是要求用真实世界的ROI(投资回报率)来验证技术。这是医疗AI从论文走向产品的必经之路。

瓦赫特的书名已经说明立场:《巨大飞跃》。他认为变革不可避免,但节奏和形态仍开放。

这项研究的价值,在于给出了第一个硬数据锚点:在特定条件下,AI确实能超越人类专家。这个"特定条件"的边界在哪里,就是接下来所有产品决策的核心问题。

急诊室的混乱、患者的非语言信号、医疗系统的激励机制——这些变量还没被纳入模型。但67% vs 50%的对比已经存在,它会被记住,会被引用,会成为下一轮融资和采购谈判的筹码。

技术已经跑在前面。现在的问题是,医疗系统愿意以多快的速度,用什么样的代价,去追赶它。

数据收束:研究测试了波士顿医院急诊科的真实病历,o1模型初始分诊准确率超过三分之二,两位专家级主治医师约为一半。作者承认实验仅限文本输入,未包含视觉和听觉线索。瓦赫特评价"现代AI将优于旧版模型和医生"现已无可争议,但补充真实临床环境的复现程度为"中等"。研究团队强调需"紧急"开展进一步临床试验,同期刊评论文章反对取代医生,主张协作模式并强调有效性、公平性和安全性的证明门槛。