打开网易新闻 查看精彩图片

撰文丨王聪

编辑丨王多鱼

排版丨水成文

当你感觉的身体不适时,是否考虑过向 AI 咨询医疗建议?

全世界的全球医疗保健提供者正在探索使用大语言模型(LLM)为公众提供医疗建议。如今,LLM 在医学执业考试中几乎能取得满分,然而,考试所考察的是对标准化知识的记忆和理解。LLM 在这方面是“超级优等生”,能快速检索海量信息。但在现实场景中,医疗决策更像是一门艺术,需要整合模糊、不完整甚至矛盾的病人信息(症状、病史、情绪、社会经济因素等),并进行权衡。因此,LLM 强大的考试能力,是否能够转换为在现实医疗场景中的表现,仍有待观察。

此外,华山医院张文宏医生近日在高山书院论坛上明确表示,反对将 AI 系统性地引入医院病历和日常诊疗流程,其担心 AI 可能会削弱年轻医生的临床思维训练与专业判断能力。

2026 年 2 月 9 日,牛津大学的研究人员在国际顶尖医学期刊Nature Medicine上发表了题为:Reliability of LLMs as medical assistants for the general public: a randomized preregistered study 的研究论文。

该研究进行了一项大规模随机对照试验,以测试大语言模型(LLM)作为公众医疗助手的实际效果,结果出人意料——在各种医学考试中表现优异、甚至堪比人类专家的大语言模型,在真实医疗场景中,或许并不能有效帮助公众诊断疾病并做出正确的健康决策。这提示了基于大语言模型的 AI 医生还需要在未来设计中更好地支持真实用户,才能安全用于向公众提供医学建议。

打开网易新闻 查看精彩图片

理想丰满——LLM医学知识丰富

近来,人工智能(AI)研究取得的突破有可能通过扩大医疗知识的获取途径、让医疗服务更贴近患者来实现医疗保健的普及化。OpenAI 开发的ChatGPT及谷歌开发的Med-PaLM 2大语言模型(LLM),在各类医学考试中表现优异,甚至达到人类医学专家的水平。这些成就让人们对于 AI 在医疗领域的应用充满期待,特别是在医疗资源不发达的地区,AI 医生被视为解决医疗资源分布不均的有效手段。

实际上,调查结果也显示,越来越多的人开始向 AI 聊天机器人咨询健康相关问题。然而,在医学考试中获得高分,是否意味着这些 AI 就能在真实医疗场景中发挥作用?

现实骨感——LLM诊断和决策能力有限

在这项最新研究中,研究团队进行了一项开创性试验,以测试大语言模型(LLM)能够帮助公众准确辨别医疗病症(例如普通感冒、贫血或胆结石)并选择一种行动方案(例如呼叫救护车或联系全科医生)。

研究团队招募了 1298 名受试者,他们每人被指派了 10 种不同的医疗情景,并让他们随机使用三个 LLM(GPT-4o、Llama 3 或 Command R+)中的一个,或使用他们的常用资源(例如互联网搜索引擎)作为对照组。

打开网易新闻 查看精彩图片

试验结果令人惊讶,在不用人类受试者进行测试时,这些 LLM 能够准确完成上述情景,识别疾病的准确率高达 94.9%,选择行动方案的正确率为 56.3%。然而,当这些人类受试者使用相同的 LLM 时,相关病症的识别正确率低于34.5%,选择行动方案的正确率低于44.2%,这些结果甚至没有超过对照组。

打开网易新闻 查看精彩图片

也就是说,人类患者在真实医疗场景中,使用 LLM 用于疾病诊断和医疗决策时,并没有比使用传统的搜索引擎更好。这意味着,LLM 本身的医疗知识水平并未转化为使用者的实际决策能力。

症结所在——人类-LLM交互难题

为什么会出现这种理想与现实之间的巨大鸿沟呢?

研究团队进一步人工检查了其中 30 种情况下的人类-LLM 交互,结果显示,症结不在于 LLM 的医学知识储备,而在于人类-LLM 交互难题。

在真实医疗场景中,人类患者往往无法准确描述自己的症状,也不知道应该提供哪些关键信息,这导致人类患者向 LLM 提供的信息不完整或不准确,而 LLM 可能过于依赖专业术语,没能将医学知识“翻译”为公众所能理解的语言,此外,LLM 有时也可能会生成误导性或错误的信息。

以下图为例,人类用户向描述了自己与外卖相关的严重胃痛和呕吐症状,LLM 初步列举了消化不良和胃食管反流这两种可能性并建议咨询医生。人类用户进一步询问就医的紧急程度时,LLM 转而回答了区分紧急医疗与常规体检的一般原则。这暴露了人类用户在提供信息不完整时,LLM 可能无法替代专业医生的判断。

打开网易新闻 查看精彩图片

因此,LLM 在医学考试中的表现令人印象深刻,但在与人类的真实对话中准确率明显下降,其掌握的医学知识的专业性和公众理解的通俗性之间存在着巨大鸿沟,标准化的医学考试和模拟患者互动,并不能体现 LLM 在真实场景中的表现。

基于这些发现,研究团队建议,LLM 在医疗领域大规模部署之前,应进行系统的人类用户测试,以评估其与人类的交互能力。

这项研究也提示我们,AI 医疗的发展路径可能应该是“先专业后普及”,也就是先作为专业医生的辅助工具,待发展成熟后逐步直接服务于公众。

论文链接

https://www.nature.com/articles/s41591-025-04074-y