微软Copilot每天被问5000万条健康问题

我是一个粉刷匠2

2026-03-31 08:36 ·北京

每天5000万条健康提问涌进微软Copilot。这个数字比很多国家的门诊量还大。

用户问什么的都有：体检报告上的箭头什么意思、半夜胸闷是不是心脏病、孩子的疫苗该怎么补打。Copilot照单全收，然后给出回答。问题是——这些回答有多可靠？没人说得清。

今年3月，微软正式推出Copilot Health，一个专门处理医疗记录和健康咨询的独立空间。几乎同时，亚马逊把原本仅限One Medical会员使用的Health AI向所有人开放。OpenAI的ChatGPT Health早在1月就上线，Anthropic的Claude也能在用户授权后读取健康档案。

大厂们像约好了一样，集体押注"AI问诊"。

微软AI健康业务副总裁Dominic King的解释很直白：生成式AI的能力到了，用户需求也到了。他提到两个数字：每天5000万条健康提问，以及健康话题在Copilot移动端的热度排名第一。OpenAI健康团队负责人Karan Singhal的说法类似——"在我们推出专门的健康产品之前，用户用ChatGPT问健康问题的增速就已经快得惊人"。

需求侧的故事确实成立。看病难、挂号难、解释难，这套体验懂的都懂。一个24小时在线、有问必答的AI助手，听起来像是医疗系统的完美补丁。

但供给侧的故事，也就是"AI到底能不能给出安全有效的建议"，争议要大得多。

大厂自测 vs 独立验证：一场不对等的信任博弈

大厂自测 vs 独立验证：一场不对等的信任博弈

牛津互联网研究所的博士生Andrew Bean态度很微妙。一方面，他觉得这些模型"可能真的到了值得推广的阶段"；另一方面，他反复强调"证据基础必须到位"。

他的担忧指向一个核心矛盾：目前大部分评估都是厂商自己做的。

OpenAI确实发表过一些研究，比如测试GPT-4在医学考试中的表现。但Bean指出，这远远不够。医疗是高风险场景，一个错误的用药建议可能导致严重后果。让公司既当运动员又当裁判，"可能是不明智的"。

更隐蔽的问题是盲区。即便厂商的研究质量过硬，他们选择的测试场景、评估指标、对比基准，也可能恰好避开自家产品的弱点。独立研究者如果能拿到相同的数据和工具，或许能发现厂商没注意到的问题——或者验证厂商的结论。

但"独立验证"这件事，目前几乎没人做。不是因为研究者不想，而是因为拿不到。

这些健康AI大多是封闭系统。研究者无法像测试公开模型那样，批量输入标准化问题、对比输出结果、统计错误率。厂商发布的评测报告，往往只展示他们想展示的部分。用Bean的话说，"证据基础"还远未建立。

50亿次提问背后的真实用户画像

50亿次提问背后的真实用户画像

微软那份报告里有个细节被很多人忽略：用户问得最多的，不是疑难杂症，而是基础问题。

体检指标解读、症状自查、用药提醒、疫苗接种时间表——这些占了大头。换句话说，AI健康工具的第一批重度用户，可能不是想替代医生的人，而是想更好利用现有医疗资源的人。

这个画像很重要。它说明当前的需求缺口，主要出在"医疗系统的可及性"上，而非"医疗质量"本身。AI如果能把这部分问题解决好，价值已经很大。但如果它越界了——比如给出需要专业判断的诊断建议——风险也会被放大。

King的回应是分层设计。Copilot Health会明确告诉用户，它是"辅助工具"而非"医疗建议"。涉及具体诊疗决策时，系统会建议咨询专业医生。这种免责声明是行业标准做法，但实际效果如何，同样缺乏独立验证。

一个关键问题是：用户真的会把AI的建议和医生的建议区分开吗？

微软和OpenAI都提到，他们在界面设计上做了努力——比如突出显示不确定性、标注信息来源、设置追问限制。但这些设计是否有效，厂商自己的用户调研是一回事，第三方行为研究是另一回事。

监管真空与行业自律的赛跑

监管真空与行业自律的赛跑

美国FDA对AI医疗设备的审批框架，主要针对特定用途的软件——比如辅助阅片的影像AI。聊天机器人这种通用工具，边界模糊得多。

ChatGPT Health、Copilot Health、Amazon Health AI，目前都没有作为"医疗器械"被监管。它们被归类为"健康信息工具"，适用的是更宽松的消费级产品标准。

这种分类有合理性。这些工具不直接下诊断、不开处方，理论上风险可控。但"理论"和"实际"之间，隔着用户的真实使用方式。

有研究显示，部分用户会把AI建议当作"第二意见"，甚至在症状加重时先问AI而不是去医院。这种行为模式，是厂商设计产品时没预料到的，还是预料到了但选择不干预？外界无从得知。

Bean的观点是，行业需要一种"预发布评估机制"——不是取代厂商自测，而是作为补充。独立专家在公开数据集上测试、在模拟场景中评估、在真实用户中观察。这套流程会增加产品上线的时间成本，但"在高风险领域，这是值得的"。

目前没有任何厂商承诺接受这种外部评估。最接近的是OpenAI，他们偶尔会与学术机构合作发表论文，但合作范围和深度都不透明。

技术乐观主义与证据保守主义的拉锯

技术乐观主义与证据保守主义的拉锯

King和Singhal的公开表态，代表了一种典型的技术乐观主义：模型能力到了，用户需求到了，产品就该出了。延迟发布，等于让更多人继续忍受信息匮乏。

Bean的立场则是证据保守主义：即便模型看起来够好了，也需要更扎实的验证才能大规模推广。延迟发布，是为了避免不可控的伤害。

两种立场都有道理，但力量不对等。厂商掌握着数据、算力和发布节奏，研究者的质疑很难转化为实际行动。用户则被夹在中间——既享受便利，也承担未知风险。

一个可能的中间路径是"有条件发布"：产品上线，但使用范围受限，同时开放给独立研究者评估。微软、亚马逊、OpenAI目前都没有采取这种模式。他们的选择是"先发布，再迭代"——这也是消费级AI产品的标准打法。

问题是，健康场景的消费级产品，容错空间比普通软件小得多。

Copilot Health上线后的第一周，社交媒体上已经有用户分享体验。有人称赞它"解释体检报告比医生还耐心"，也有人吐槽"问了三遍同一个问题，得到三个不同的答案"。这些反馈是碎片化的、未经核实的，但它们是当前最接近"独立验证"的信息来源。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴