来源:市场资讯
(来源:医健人物)
近日,哈佛医学院一份研究震惊了AI圈:研究团队对21个主流大语言模型进行了临床推理能力的系统性测试。在信息相对不完整情况下,模型诊断病例的失败率超过80%,即使是最先进的GPT-5和Grok 4也未能幸免。
“鉴别诊断是临床推理的核心,也是人工智能目前无法复制的‘医学艺术’的基石。”研究通讯作者Marc Succi博士直言。这21款被测试的模型均为通用型大语言模型,其设计初衷并非专攻医疗场景。
如今,越来越多用户已经习惯用AI来咨询健康问题。在国内医疗健康领域,主要呈现出两种路线:一类是以豆包、元宝、Deepseek为代表的通用AI;一类是以蚂蚁阿福为代表的专业垂直AI。
哈佛医学院这项研究恰好印证了两个结论。第一,真人医生不可替代,尤其是在临床推理这个基石环节。第二,通用AI在社交、娱乐、日常生活中可以成为好帮手,但在医疗健康这类严肃领域,“万金油”式的通用模型很难玩转,医疗赛道最终还是得看专业AI。
❶
21款通用大模型折戟“鉴别诊断”
让我们先来看清楚这份研究到底测了什么。
传统上,评估一款AI的方式相对粗放——给模型一个完整病例,看它能不能答对最终诊断。但真实的临床场景不是这样运作的。医生面对的患者,最初往往只有模糊的症状描述:发热、腹痛、乏力。医生必须在信息高度不完整的情况下,依靠经验与推理,列出可能的“鉴别诊断”清单,再逐项排查。这一步错了,后面的检查方向、治疗方案可能全盘皆错。
为了模拟这一真实流程,研究人员采用了29个已发表的标准化临床病例,逐步向21款LLM输入信息——先给出患者年龄、性别和症状,再补充体格检查结果,最后提供实验室和影像学数据。结果显示,所有通用模型在鉴别诊断环节的失败率均超过80%。
大语言模型(PrIME-LLM)医学评价比例指数,以及临床试验临床微贴画的PRIME-LLM评分与总体准确性对比
为什么通用大模型在鉴别诊断上集体“翻车”?
核心原因在于训练数据与推理逻辑的结构性差异。
通用大模型的训练语料主要来自互联网公开文本——维基百科、新闻、论坛、书籍。这些信息广度惊人,但在专科深度上先天不足。尤其是面对医疗健康这类专业问题时,通用模型本质上是在“复述”它所读过的医学内容,而非在真实的临床路径约束下进行专业推理。
微博认证为急诊医生、美国心脏协会急救培训导师的“急诊夜鹰”对此有一个形象的总结:通用AI处理的是“字面信息”,而人类医生处理的是“语境信息”与“感知信息”。当患者说胸口痛,人类医生会通过眼神、语气、肢体语言来判断这是“濒死感”还是“一闪而过的刺痛”。而通用大模型可能会将“胸痛”机械关联到心绞痛、胃食管反流甚至焦虑症。这种动态交互式推理能力,是通用AI无法实现的。
❷
严肃领域还得看专业AI
通用AI诊断错误率高,那是不是说明AI在医疗领域就不能用?当然不是。
一位医疗行业专家分析认为,未来AI的发展方向是往专业、细分领域走。Deepseek、豆包这类通用大模型,相当于一个基础设施,在社交娱乐旅行等领域提供服务,但在专业严肃领域,一定还是要依靠不断迭代推理模式、更细分的专业AI,准确性和专业性更强。
专业AI的专业性,来自几个层面。第一,医疗专科语料的深度积累。以蚂蚁阿福为例,其底层模型采用医学文献、权威医学教科书、临床指南以及经过脱敏处理的公开医疗数据集,覆盖了基础医学、临床医学、药学、公共卫生等多个专业领域,确保回答的专业和准确性。其PC端上线DeepSearch功能时,已收录3600万篇高质量医学数据,不仅涵盖国际权威资源,还纳入中华医学会等本土最新指南共识。
第二层壁垒更为关键——场景闭环的天然优势。蚂蚁阿福不是孤立的AI问答工具,而是覆盖了健康问答、在线问诊(链接30万真人医生)、医保码等功能,用户授权后还可打通智能健康设备数据、建立个人健康档案,形成医院服务、医保风控、用户管理的完整闭环。这意味着,蚂蚁阿福的AI推理不仅基于文本,还基于真实的就医记录、体检指标、用药历史,这些构成了通用大模型无法触及的“决策上下文”。
第三层壁垒是医疗场景的深度耦合。蚂蚁阿福不仅面向C端用户提供健康咨询服务,更深入到医疗供给侧。超过1000位医生已在阿福App上开设“AI分身”,在线回答用户健康咨询,覆盖皮肤、慢性病等20多个专科。这种“AI+医生”的协同模式,既发挥了AI在信息处理上的效率优势,又叠加了人类医生在细分专科上的复杂推理和决策能力。
“急诊夜鹰”指出,蚂蚁阿福这类深耕垂直领域的专业AI,正试图从设计逻辑上弥补通用AI“鉴别诊断乏力”的短板。
一方面,它在交互中逼近“主动追问”的医生思维,像实习医生采集病史一样,根据症状描述进行多维度追问。比如用户说头痛,它会追问部位、性质、持续时间及伴随症状。这种结构化的引导式问诊,虽然无法体检视触叩听,但一定程度上改善了通用大模型仅凭“字面意思”推理的缺陷。其次,打通主流智能穿戴设备后,意味着它掌握的不仅是当下的主诉,还有连续的血压趋势、血糖波动、既往病史等,推理的基石自然更稳固。
当然,这里有必要厘清一个关键边界。健康AI为用户提供健康科普、就诊咨询、报告解读等服务,而非替代医生做出医疗诊断。这一定位既符合医疗监管合规要求,也契合JAMA研究得出的结论——当前AI最合适的角色是辅助而非替代。在数据完整度不高的场景中,AI提供的是“导航”而非“决策”;当涉及真正需要鉴别诊断和临床推理的任务时,最终的判断权仍然归属于人类医生。
回到最初的设问:医疗赛道为何终究容不下“万金油”?
答案不在于通用AI的能力不够强,而在于医疗这个行业的底层逻辑天然排斥“万能解法”。在医疗领域,一个错误的推理可能比没有推理更危险,一个忽视细节的判断可能比没有判断更致命。
因此,在医疗健康这个严肃领域,专业AI才更可靠的答案,它的护城河,由高质量的医学语料、深度耦合的场景闭环以及医生与AI之间的信任关系共同筑成。
这或许是现阶段医疗健康AI赛道最值得关注的产业叙事。
热门跟贴