通用大模型“看病”漏诊率超80%，这就是阿福能火的原因|医学|医生|医疗|大模型|推理|漏诊率|知名企业|通用汽车|邓福如|阿福

来源：市场资讯

（来源：医健人物）

近日，哈佛医学院一份研究震惊了AI圈：研究团队对21个主流大语言模型进行了临床推理能力的系统性测试。在信息相对不完整情况下，模型诊断病例的失败率超过80%，即使是最先进的GPT-5和Grok 4也未能幸免。

“鉴别诊断是临床推理的核心，也是人工智能目前无法复制的‘医学艺术’的基石。”研究通讯作者Marc Succi博士直言。这21款被测试的模型均为通用型大语言模型，其设计初衷并非专攻医疗场景。

如今，越来越多用户已经习惯用AI来咨询健康问题。在国内医疗健康领域，主要呈现出两种路线：一类是以豆包、元宝、Deepseek为代表的通用AI；一类是以蚂蚁阿福为代表的专业垂直AI。

哈佛医学院这项研究恰好印证了两个结论。第一，真人医生不可替代，尤其是在临床推理这个基石环节。第二，通用AI在社交、娱乐、日常生活中可以成为好帮手，但在医疗健康这类严肃领域，“万金油”式的通用模型很难玩转，医疗赛道最终还是得看专业AI。

❶

21款通用大模型折戟“鉴别诊断”

让我们先来看清楚这份研究到底测了什么。

传统上，评估一款AI的方式相对粗放——给模型一个完整病例，看它能不能答对最终诊断。但真实的临床场景不是这样运作的。医生面对的患者，最初往往只有模糊的症状描述：发热、腹痛、乏力。医生必须在信息高度不完整的情况下，依靠经验与推理，列出可能的“鉴别诊断”清单，再逐项排查。这一步错了，后面的检查方向、治疗方案可能全盘皆错。

为了模拟这一真实流程，研究人员采用了29个已发表的标准化临床病例，逐步向21款LLM输入信息——先给出患者年龄、性别和症状，再补充体格检查结果，最后提供实验室和影像学数据。结果显示，所有通用模型在鉴别诊断环节的失败率均超过80%。

大语言模型(PrIME-LLM)医学评价比例指数,以及临床试验临床微贴画的PRIME-LLM评分与总体准确性对比

为什么通用大模型在鉴别诊断上集体“翻车”？

核心原因在于训练数据与推理逻辑的结构性差异。

通用大模型的训练语料主要来自互联网公开文本——维基百科、新闻、论坛、书籍。这些信息广度惊人，但在专科深度上先天不足。尤其是面对医疗健康这类专业问题时，通用模型本质上是在“复述”它所读过的医学内容，而非在真实的临床路径约束下进行专业推理。

微博认证为急诊医生、美国心脏协会急救培训导师的“急诊夜鹰”对此有一个形象的总结：通用AI处理的是“字面信息”，而人类医生处理的是“语境信息”与“感知信息”。当患者说胸口痛，人类医生会通过眼神、语气、肢体语言来判断这是“濒死感”还是“一闪而过的刺痛”。而通用大模型可能会将“胸痛”机械关联到心绞痛、胃食管反流甚至焦虑症。这种动态交互式推理能力，是通用AI无法实现的。

❷

严肃领域还得看专业AI

通用AI诊断错误率高，那是不是说明AI在医疗领域就不能用？当然不是。

一位医疗行业专家分析认为，未来AI的发展方向是往专业、细分领域走。Deepseek、豆包这类通用大模型，相当于一个基础设施，在社交娱乐旅行等领域提供服务，但在专业严肃领域，一定还是要依靠不断迭代推理模式、更细分的专业AI，准确性和专业性更强。

专业AI的专业性，来自几个层面。第一，医疗专科语料的深度积累。以蚂蚁阿福为例，其底层模型采用医学文献、权威医学教科书、临床指南以及经过脱敏处理的公开医疗数据集，覆盖了基础医学、临床医学、药学、公共卫生等多个专业领域，确保回答的专业和准确性。其PC端上线DeepSearch功能时，已收录3600万篇高质量医学数据，不仅涵盖国际权威资源，还纳入中华医学会等本土最新指南共识。

第二层壁垒更为关键——场景闭环的天然优势。蚂蚁阿福不是孤立的AI问答工具，而是覆盖了健康问答、在线问诊（链接30万真人医生）、医保码等功能，用户授权后还可打通智能健康设备数据、建立个人健康档案，形成医院服务、医保风控、用户管理的完整闭环。这意味着，蚂蚁阿福的AI推理不仅基于文本，还基于真实的就医记录、体检指标、用药历史，这些构成了通用大模型无法触及的“决策上下文”。

第三层壁垒是医疗场景的深度耦合。蚂蚁阿福不仅面向C端用户提供健康咨询服务，更深入到医疗供给侧。超过1000位医生已在阿福App上开设“AI分身”，在线回答用户健康咨询，覆盖皮肤、慢性病等20多个专科。这种“AI+医生”的协同模式，既发挥了AI在信息处理上的效率优势，又叠加了人类医生在细分专科上的复杂推理和决策能力。

“急诊夜鹰”指出，蚂蚁阿福这类深耕垂直领域的专业AI，正试图从设计逻辑上弥补通用AI“鉴别诊断乏力”的短板。

一方面，它在交互中逼近“主动追问”的医生思维，像实习医生采集病史一样，根据症状描述进行多维度追问。比如用户说头痛，它会追问部位、性质、持续时间及伴随症状。这种结构化的引导式问诊，虽然无法体检视触叩听，但一定程度上改善了通用大模型仅凭“字面意思”推理的缺陷。其次，打通主流智能穿戴设备后，意味着它掌握的不仅是当下的主诉，还有连续的血压趋势、血糖波动、既往病史等，推理的基石自然更稳固。

当然，这里有必要厘清一个关键边界。健康AI为用户提供健康科普、就诊咨询、报告解读等服务，而非替代医生做出医疗诊断。这一定位既符合医疗监管合规要求，也契合JAMA研究得出的结论——当前AI最合适的角色是辅助而非替代。在数据完整度不高的场景中，AI提供的是“导航”而非“决策”；当涉及真正需要鉴别诊断和临床推理的任务时，最终的判断权仍然归属于人类医生。

回到最初的设问：医疗赛道为何终究容不下“万金油”？

答案不在于通用AI的能力不够强，而在于医疗这个行业的底层逻辑天然排斥“万能解法”。在医疗领域，一个错误的推理可能比没有推理更危险，一个忽视细节的判断可能比没有判断更致命。

因此，在医疗健康这个严肃领域，专业AI才更可靠的答案，它的护城河，由高质量的医学语料、深度耦合的场景闭环以及医生与AI之间的信任关系共同筑成。

这或许是现阶段医疗健康AI赛道最值得关注的产业叙事。