医疗AI翻车现场：五个顶流模型，一半答案在瞎说

摸鱼算法

2026-04-15 16:36 ·北京

伦敦的研究人员刚做完一场大型压力测试。他们往五个主流AI聊天机器人里塞了250个医疗问题，结果一半回答都有问题——不是小瑕疵，是可能误导患者的那种。

测试对象包括ChatGPT、Gemini、Grok、Meta AI和DeepSeek，覆盖癌症、疫苗、干细胞、营养和运动表现五个领域。问题设计得很刁钻：既有正常用户的常见疑问，也有网络上流传已久的谣言变体。

开放式提问是重灾区

研究发现一个反直觉的规律：问题越开放，AI越容易翻车。

当用户问"这种疗法有效吗"或"疫苗安全吗"这种日常句式时，五个模型的表现比面对选择题时差得多。它们会把可靠证据和薄弱甚至错误的说法混在一起，包装成流畅、自信的段落。

这恰恰击中了真实场景。没人看病时像做测验那样列选项，人们就是随口一问，然后等着一个听起来专业的答案。

研究人员特意对比了两种提问方式。封闭式提示（有明确选项边界）确实更安全，但现实中几乎没人这么问AI。开放式提示产出的"高度有问题"回答比例，远超团队预期。

参考文献是纸糊的盔甲

更让人头疼的是引用系统。五个模型的参考文献完整度平均分只有40%，没有一个能给出完全准确的文献列表。

这意味着什么？用户看到文末挂着一串论文链接，本能觉得"这回答有据可查"。点进去才发现，要么链接失效，要么文不对题，要么干脆是AI编出来的。

研究团队专门标记了虚构引用的情况。但即便文献是假的，模型回答时依然语气笃定，几乎不加任何"这可能不准确"的缓冲。

这种确定性幻觉比错误本身更危险。一个犹豫的医生会让人再检查一次，一个自信的AI直接让人做出决定。

为什么偏偏是医疗场景

AI在写诗、写代码时的容错率很高。医疗不一样，一个数字错、一个剂量错，后果是真实的身体损伤。

研究设计的250个提示词，核心测试点是"是否偏离科学证据"。这不是在考AI的知识储备，是在考它面对模糊信息时的判断力——而判断力恰恰是当前大模型的短板。

五个被测模型里，没有哪一个展现出稳定的证据筛选能力。它们更像高级的文本拼接器，把训练数据里高频出现的说法重新组织，而非真正理解医学研究的证据等级。

疫苗安全、癌症替代疗法、干细胞宣传，这些领域本来就充斥着商业利益和认知偏差。AI没有免疫能力，反而会把网络上的噪音放大成"权威回答"。

研究本身的局限也要摊开讲

作者团队没回避方法论的限制。只测了五个产品，而AI迭代速度以周计算；提示词设计偏压力测试，日常使用中错误率可能没那么夸张。

但这些 caveat 不影响核心结论：当问题涉及循证医学时，现有聊天机器人的可靠度还撑不起严肃决策。

一个细节值得玩味。研究特意选了"常见误解"作为提示词素材——这些正是搜索引擎时代就反复出现、但从未被彻底清理的信息垃圾。AI没有解决旧问题，只是换了个更礼貌的包装。

现在的AI医疗助手能干什么

研究人员的建议很克制： summarize information（总结信息），shape follow-up questions（帮助形成后续问题）。

翻译一下：可以当信息预处理工具，不能当诊断依据。适合帮用户整理思路、准备面诊时要问医生的问题清单，不适合替代那个"要不要停药"的决定。

这个定位和产品宣传之间的落差，才是问题的根源。厂商演示时展示的是流畅对话和即时响应，用户记住的是"AI懂医学"。研究数据把幻觉戳破了——懂的是语言模式，不是医学。

更深一层的问题在于交互设计。当界面长得像聊天窗口、回答长得像专家建议，用户的警惕心自然下降。这是产品形态的锅，不是用户太轻信。

对从业者的实际影响

如果你是医疗产品经理，这份研究提供了具体的改进 checklist：引用系统需要独立验证层，开放式回答需要不确定性量化，高风险话题需要强制人工复核。

如果你是普通用户，记住一个简单规则：AI给的医疗建议，默认当作"某个热心网友的说法"处理。有用，但得找真人确认。

如果你是政策制定者，研究暴露的监管空白很明显：当AI输出可能直接影响健康决策时，现有的平台责任和医疗广告法规都没跟上。

五个模型、250个问题、50%的问题率。这些数字不会阻止AI进入医疗领域，但应该让所有人把"辅助工具"的定位刻进产品设计的每个环节。

最讽刺的可能是这个：研究测试的五个模型，每一个在通用知识问答上的表现都足够惊艳。但医疗场景不需要惊艳，需要 boring 的正确——而 boring 恰恰是当前技术栈最不擅长的东西。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴