每天5000万条健康提问涌进微软Copilot。这个数字比很多国家的门诊量还大。
用户问什么的都有:体检报告上的箭头什么意思、半夜胸闷是不是心脏病、孩子的疫苗该怎么补打。Copilot照单全收,然后给出回答。问题是——这些回答有多可靠?没人说得清。
今年3月,微软正式推出Copilot Health,一个专门处理医疗记录和健康咨询的独立空间。几乎同时,亚马逊把原本仅限One Medical会员使用的Health AI向所有人开放。OpenAI的ChatGPT Health早在1月就上线,Anthropic的Claude也能在用户授权后读取健康档案。
大厂们像约好了一样,集体押注"AI问诊"。
微软AI健康业务副总裁Dominic King的解释很直白:生成式AI的能力到了,用户需求也到了。他提到两个数字:每天5000万条健康提问,以及健康话题在Copilot移动端的热度排名第一。OpenAI健康团队负责人Karan Singhal的说法类似——"在我们推出专门的健康产品之前,用户用ChatGPT问健康问题的增速就已经快得惊人"。
需求侧的故事确实成立。看病难、挂号难、解释难,这套体验懂的都懂。一个24小时在线、有问必答的AI助手,听起来像是医疗系统的完美补丁。
但供给侧的故事,也就是"AI到底能不能给出安全有效的建议",争议要大得多。
大厂自测 vs 独立验证:一场不对等的信任博弈
牛津互联网研究所的博士生Andrew Bean态度很微妙。一方面,他觉得这些模型"可能真的到了值得推广的阶段";另一方面,他反复强调"证据基础必须到位"。
他的担忧指向一个核心矛盾:目前大部分评估都是厂商自己做的。
OpenAI确实发表过一些研究,比如测试GPT-4在医学考试中的表现。但Bean指出,这远远不够。医疗是高风险场景,一个错误的用药建议可能导致严重后果。让公司既当运动员又当裁判,"可能是不明智的"。
更隐蔽的问题是盲区。即便厂商的研究质量过硬,他们选择的测试场景、评估指标、对比基准,也可能恰好避开自家产品的弱点。独立研究者如果能拿到相同的数据和工具,或许能发现厂商没注意到的问题——或者验证厂商的结论。
但"独立验证"这件事,目前几乎没人做。不是因为研究者不想,而是因为拿不到。
这些健康AI大多是封闭系统。研究者无法像测试公开模型那样,批量输入标准化问题、对比输出结果、统计错误率。厂商发布的评测报告,往往只展示他们想展示的部分。用Bean的话说,"证据基础"还远未建立。
50亿次提问背后的真实用户画像
微软那份报告里有个细节被很多人忽略:用户问得最多的,不是疑难杂症,而是基础问题。
体检指标解读、症状自查、用药提醒、疫苗接种时间表——这些占了大头。换句话说,AI健康工具的第一批重度用户,可能不是想替代医生的人,而是想更好利用现有医疗资源的人。
这个画像很重要。它说明当前的需求缺口,主要出在"医疗系统的可及性"上,而非"医疗质量"本身。AI如果能把这部分问题解决好,价值已经很大。但如果它越界了——比如给出需要专业判断的诊断建议——风险也会被放大。
King的回应是分层设计。Copilot Health会明确告诉用户,它是"辅助工具"而非"医疗建议"。涉及具体诊疗决策时,系统会建议咨询专业医生。这种免责声明是行业标准做法,但实际效果如何,同样缺乏独立验证。
一个关键问题是:用户真的会把AI的建议和医生的建议区分开吗?
微软和OpenAI都提到,他们在界面设计上做了努力——比如突出显示不确定性、标注信息来源、设置追问限制。但这些设计是否有效,厂商自己的用户调研是一回事,第三方行为研究是另一回事。
监管真空与行业自律的赛跑
美国FDA对AI医疗设备的审批框架,主要针对特定用途的软件——比如辅助阅片的影像AI。聊天机器人这种通用工具,边界模糊得多。
ChatGPT Health、Copilot Health、Amazon Health AI,目前都没有作为"医疗器械"被监管。它们被归类为"健康信息工具",适用的是更宽松的消费级产品标准。
这种分类有合理性。这些工具不直接下诊断、不开处方,理论上风险可控。但"理论"和"实际"之间,隔着用户的真实使用方式。
有研究显示,部分用户会把AI建议当作"第二意见",甚至在症状加重时先问AI而不是去医院。这种行为模式,是厂商设计产品时没预料到的,还是预料到了但选择不干预?外界无从得知。
Bean的观点是,行业需要一种"预发布评估机制"——不是取代厂商自测,而是作为补充。独立专家在公开数据集上测试、在模拟场景中评估、在真实用户中观察。这套流程会增加产品上线的时间成本,但"在高风险领域,这是值得的"。
目前没有任何厂商承诺接受这种外部评估。最接近的是OpenAI,他们偶尔会与学术机构合作发表论文,但合作范围和深度都不透明。
技术乐观主义与证据保守主义的拉锯
King和Singhal的公开表态,代表了一种典型的技术乐观主义:模型能力到了,用户需求到了,产品就该出了。延迟发布,等于让更多人继续忍受信息匮乏。
Bean的立场则是证据保守主义:即便模型看起来够好了,也需要更扎实的验证才能大规模推广。延迟发布,是为了避免不可控的伤害。
两种立场都有道理,但力量不对等。厂商掌握着数据、算力和发布节奏,研究者的质疑很难转化为实际行动。用户则被夹在中间——既享受便利,也承担未知风险。
一个可能的中间路径是"有条件发布":产品上线,但使用范围受限,同时开放给独立研究者评估。微软、亚马逊、OpenAI目前都没有采取这种模式。他们的选择是"先发布,再迭代"——这也是消费级AI产品的标准打法。
问题是,健康场景的消费级产品,容错空间比普通软件小得多。
Copilot Health上线后的第一周,社交媒体上已经有用户分享体验。有人称赞它"解释体检报告比医生还耐心",也有人吐槽"问了三遍同一个问题,得到三个不同的答案"。这些反馈是碎片化的、未经核实的,但它们是当前最接近"独立验证"的信息来源。
热门跟贴