AI 健康发展正盛。近日,微软在旗下产品 Copilot 中推出了子模块 Copilot Health,用户可以在这个新板块中接入自己的医疗记录,并就健康问题进行提问;几天前,亚马逊宣布此前仅限 One Medical 会员使用的 Health AI 将向公众全面开放;同时,这些产品加入了 OpenAI 今年 1 月发布的 ChatGPT Health 以及 Anthropic 的 Claude 的行列。
面向大众的健康 AI 已经正式成为一股趋势,市场对提供健康建议的聊天机器人有明确的需求,因为很多人难以通过现有医疗体系获得帮助;一些研究也表明,当前的大语言模型能够给出安全且有用的建议。但研究人员表示,这些工具应当在大范围发布之前接受独立专家更严格的评估。
在健康这样的高风险领域,信任公司自行评估自家产品可能并不明智,尤其是当这些评估结果没有公开供外部专家审查时。即使公司确实在做高质量、严谨的研究,它们仍然可能存在盲区,需要更广泛的研究界来补充。
“在你始终需要更多医疗服务的前提下,我认为我们确实应该追求每一条可行的路径,”牛津互联网研究所的博士生安德鲁·比恩(Andrew Bean)说,“在我看来,这些模型完全有可能已经到了值得推广的水平。”
“但是,”他补充道,“评估必须非常严格。”
庞大的市场需求
在开发者看来,这些健康产品之所以现在推出,是因为大语言模型确实已经达到了能有效提供医疗建议的水平。微软 AI 健康业务副总裁、前外科医生多米尼克·金(Dominic King)将 AI 能力的进步列为公司组建健康团队以及 Copilot Health 问世的核心原因。“我们看到生成式 AI 在回答健康问题、给出优质回复方面取得了巨大进步,”他说。
另一个关键因素是需求。在 Copilot Health 推出前不久,微软发布了一份报告和配套博文,详细说明了人们如何使用 Copilot 获取健康建议。微软表示,每天收到 5000 万个健康相关问题,健康是 Copilot 移动端应用上最热门的讨论话题
其他 AI 公司也注意到了这一趋势并做出了回应。“甚至在我们推出健康产品之前,就已经看到人们使用 ChatGPT 咨询健康问题的速度在飞快增长,”OpenAI 健康 AI 团队负责人卡兰·辛格尔(Karan Singhal)说。(OpenAI 和微软有长期合作关系,Copilot 由 OpenAI 的模型驱动。)
人们可能只是更喜欢向一个 24 小时在线、不带评判的机器人倾诉自己的健康问题。但很多专家从当前医疗体系的现状来解读这一现象。“这些工具的存在和它们在整个格局中的定位是有原因的,”西奈山医疗系统的首席 AI 官吉里什·纳德卡尼(Girish Nadkarni)说,“因为获取医疗服务很难,对某些人群来说尤其难。”
面向消费者的健康聊天机器人的理想愿景在于,它们可以在改善用户健康的同时,减轻医疗系统的压力。这可能包括帮助用户判断自己是否需要就医,这项任务被称为分诊。如果聊天机器人的分诊功能有效,那些需要急救的患者可能比原本更早地寻求治疗,而症状较轻的患者则可能安心地在家根据聊天机器人的建议管理症状,而不是给急诊室和诊所增加不必要的负担。
但纳德卡尼和西奈山其他研究人员最近发表的一项广受讨论的研究发现,ChatGPT Health 有时会对轻症建议过度治疗,同时未能识别紧急情况。虽然辛格尔和其他一些专家认为该研究的方法论可能无法全面反映 ChatGPT Health 的能力,但这项研究引发了人们对这些工具在面向公众发布前缺乏外部评估的担忧。
为本文接受采访的大多数学术专家都认为,考虑到一些人获取医疗服务的渠道多么有限,健康聊天机器人确实可能带来实际好处。但六位专家全部表达了担忧:这些工具在没有经过独立研究者安全评估的情况下就上线了。这些工具的一些用途相对无害,比如推荐锻炼计划或建议用户向医生提什么问题,但另一些用途有明显风险。分诊是其中之一,让聊天机器人提供诊断或治疗方案是另一个。
ChatGPT Health 的界面上有醒目的免责声明,表示该工具不用于诊断或治疗;Copilot Health 和亚马逊 Health AI 的发布公告中也包含类似警告。但这些警告很容易被忽略。“我们都知道人们会拿它来做诊断和管理病情,”贝斯以色列女执事医疗中心的内科医生和研究员、Google 访问研究员亚当·罗德曼(Adam Rodman)说。
严谨的医学测试
这些公司表示,他们在测试聊天机器人以确保它们在绝大多数情况下提供安全回复。OpenAI 设计并发布了 HealthBench,这是一个基准测试,评估大语言模型在模拟真实健康对话中的表现。去年 GPT-5 发布时(GPT-5 同时驱动 ChatGPT Health 和 Copilot Health),OpenAI 公布了该模型的 HealthBench 得分:它大幅优于此前的 OpenAI 模型,但整体表现远非完美。
但 HealthBench 这类评估存在局限性。比恩和同事上月发表的一项研究发现,即使大语言模型能独立从虚构的书面场景中准确识别出一种疾病,一个没有医学背景的用户拿到同样的场景后借助 LLM 辅助判断,可能只有三分之一的时间能得出正确结论。如果用户缺乏医学知识,他们可能不知道场景中哪些信息(或自身真实经历中哪些信息)对提问来说是重要的,也可能误读大语言模型给出的信息。
比恩说,这个表现差距对 OpenAI 的模型来说可能意义重大。在最初的 HealthBench 研究中,OpenAI 报告其模型在需要向用户追问更多信息的对话中表现相对较差。如果情况确实如此,那些缺乏足够医学知识、无法一开始就为健康聊天机器人提供所需信息的用户,可能会收到无用甚至不准确的建议。
OpenAI 的辛格尔指出,公司当前的 GPT-5 系列模型在最初的 HealthBench 研究进行时尚未发布,这一代模型在主动追问信息方面比前代有很大改进。不过 OpenAI 也报告称,当前的旗舰模型 GPT-5.4 在主动获取上下文方面实际上不如早期版本 GPT-5.2。
比恩认为,理想情况下,健康聊天机器人应该像他的研究那样,在发布前先经过有真人用户参与的对照测试。这可能是一项艰巨的任务,尤其考虑到 AI 领域的发展速度和人类研究所需的时间。比恩自己的研究用的还是将近一年前发布的 GPT-4o,现在已经过时了。
本月早些时候,Google 发布了一项符合比恩标准的研究。在这项研究中,患者先与 Google 的 AMIE(Articulate Medical Intelligence Explorer,一款尚未公开发布的医疗大语言模型聊天机器人)讨论医疗问题,然后再去见真人医生。总体来看,AMIE 的诊断准确率与医生持平,研究人员也未在任何对话中发现重大安全隐患。
尽管结果令人鼓舞,Google 并不打算近期发布 AMIE。“虽然研究取得了进展,但在系统真正应用于诊断和治疗之前,还有重大局限性需要解决,包括在公平性、公正性和安全性测试方面的进一步研究,”Google DeepMind 的研究科学家艾伦·卡蒂克萨林加姆(Alan Karthikesalingam)在邮件中写道。Google 最近透露,它与 CVS 合作搭建的健康平台 Health100 将包含一个由旗舰 Gemini 模型驱动的 AI 助手,不过这个工具大概不会用于诊断或治疗。
罗德曼与卡蒂克萨林加姆共同主导了 AMIE 研究,他并不认为这种耗时数年的大型研究一定是评估 ChatGPT Health 和 Copilot Health 这类聊天机器人的正确方式。“临床试验的范式在生成式 AI 领域并不总是适用,原因很多,”他说,“这就是基准测试讨论的意义所在。有没有一个来自可信第三方的基准测试,大家都认可它是有意义的,各实验室可以用它来自我约束?”
这里的关键是“第三方”。无论公司对自家产品做了多全面的评估,要完全信任他们的结论仍然很难。第三方评估带来的不仅是公正性,如果有多个第三方参与,还能帮助弥补盲区。
OpenAI 的辛格尔表示他非常支持外部评估。“我们尽力支持学术社区,”他说,“我们发布 HealthBench 的部分原因就是给学术界和其他模型开发者提供一个高质量评估的范例。”
他说,鉴于产出一项高质量评估的成本很高,他怀疑任何单个学术实验室能否做出他所说的“统治一切的唯一评估”。但他高度评价了学术团体将已有评估和新评估整合成综合评估套件的努力,比如斯坦福的 MedHELM 框架,它在各种医疗任务上对模型进行测试。目前,OpenAI 的 GPT-5 在 MedHELM 上拥有最高分。
斯坦福大学医学教授、MedHELM 项目负责人尼加姆·沙阿(Nigam Shah)说,这个框架也有局限性。它只评估聊天机器人的单轮回复,但一个向聊天机器人寻求医疗建议的人可能会进行多轮来回对话。他说自己和一些合作者正在着手构建一个能够评估这类复杂对话的体系,但这需要时间和资金。“你我完全没有能力阻止这些公司发布面向健康的产品,它们想干嘛就干嘛,”他说,“像我们这样的人唯一能做的就是想办法为基准测试找到资金。”
不过,医生自己也会犯错——对于一个只能偶尔看到医生的人来说,一个随时可用但偶尔出错的大语言模型仍然可能比现状好得多,只要它的错误不会太严重。
但以目前的证据水平来看,我们无法确切判断现有的这些工具是否真的带来了改善,还是它们的风险超过了收益。
https://www.technologyreview.com/2026/03/30/1134795/there-are-more-ai-health-tools-than-ever-but-how-well-do-they-work/
热门跟贴