伦敦的研究人员刚做完一场大型压力测试。他们往五个主流AI聊天机器人里塞了250个医疗问题,结果一半回答都有问题——不是小瑕疵,是可能误导患者的那种。

测试对象包括ChatGPT、Gemini、Grok、Meta AI和DeepSeek,覆盖癌症、疫苗、干细胞、营养和运动表现五个领域。问题设计得很刁钻:既有正常用户的常见疑问,也有网络上流传已久的谣言变体。

打开网易新闻 查看精彩图片

开放式提问是重灾区

研究发现一个反直觉的规律:问题越开放,AI越容易翻车。

当用户问"这种疗法有效吗"或"疫苗安全吗"这种日常句式时,五个模型的表现比面对选择题时差得多。它们会把可靠证据和薄弱甚至错误的说法混在一起,包装成流畅、自信的段落。

这恰恰击中了真实场景。没人看病时像做测验那样列选项,人们就是随口一问,然后等着一个听起来专业的答案。

研究人员特意对比了两种提问方式。封闭式提示(有明确选项边界)确实更安全,但现实中几乎没人这么问AI。开放式提示产出的"高度有问题"回答比例,远超团队预期。

参考文献是纸糊的盔甲

更让人头疼的是引用系统。五个模型的参考文献完整度平均分只有40%,没有一个能给出完全准确的文献列表。

这意味着什么?用户看到文末挂着一串论文链接,本能觉得"这回答有据可查"。点进去才发现,要么链接失效,要么文不对题,要么干脆是AI编出来的。

研究团队专门标记了虚构引用的情况。但即便文献是假的,模型回答时依然语气笃定,几乎不加任何"这可能不准确"的缓冲。

这种确定性幻觉比错误本身更危险。一个犹豫的医生会让人再检查一次,一个自信的AI直接让人做出决定。

为什么偏偏是医疗场景

AI在写诗、写代码时的容错率很高。医疗不一样,一个数字错、一个剂量错,后果是真实的身体损伤。

研究设计的250个提示词,核心测试点是"是否偏离科学证据"。这不是在考AI的知识储备,是在考它面对模糊信息时的判断力——而判断力恰恰是当前大模型的短板。

五个被测模型里,没有哪一个展现出稳定的证据筛选能力。它们更像高级的文本拼接器,把训练数据里高频出现的说法重新组织,而非真正理解医学研究的证据等级。

疫苗安全、癌症替代疗法、干细胞宣传,这些领域本来就充斥着商业利益和认知偏差。AI没有免疫能力,反而会把网络上的噪音放大成"权威回答"。

研究本身的局限也要摊开讲

作者团队没回避方法论的限制。只测了五个产品,而AI迭代速度以周计算;提示词设计偏压力测试,日常使用中错误率可能没那么夸张。

但这些 caveat 不影响核心结论:当问题涉及循证医学时,现有聊天机器人的可靠度还撑不起严肃决策。

一个细节值得玩味。研究特意选了"常见误解"作为提示词素材——这些正是搜索引擎时代就反复出现、但从未被彻底清理的信息垃圾。AI没有解决旧问题,只是换了个更礼貌的包装。

现在的AI医疗助手能干什么

研究人员的建议很克制: summarize information(总结信息),shape follow-up questions(帮助形成后续问题)。

翻译一下:可以当信息预处理工具,不能当诊断依据。适合帮用户整理思路、准备面诊时要问医生的问题清单,不适合替代那个"要不要停药"的决定。

这个定位和产品宣传之间的落差,才是问题的根源。厂商演示时展示的是流畅对话和即时响应,用户记住的是"AI懂医学"。研究数据把幻觉戳破了——懂的是语言模式,不是医学。

更深一层的问题在于交互设计。当界面长得像聊天窗口、回答长得像专家建议,用户的警惕心自然下降。这是产品形态的锅,不是用户太轻信。

对从业者的实际影响

如果你是医疗产品经理,这份研究提供了具体的改进 checklist:引用系统需要独立验证层,开放式回答需要不确定性量化,高风险话题需要强制人工复核。

如果你是普通用户,记住一个简单规则:AI给的医疗建议,默认当作"某个热心网友的说法"处理。有用,但得找真人确认。

如果你是政策制定者,研究暴露的监管空白很明显:当AI输出可能直接影响健康决策时,现有的平台责任和医疗广告法规都没跟上。

五个模型、250个问题、50%的问题率。这些数字不会阻止AI进入医疗领域,但应该让所有人把"辅助工具"的定位刻进产品设计的每个环节。

最讽刺的可能是这个:研究测试的五个模型,每一个在通用知识问答上的表现都足够惊艳。但医疗场景不需要惊艳,需要 boring 的正确——而 boring 恰恰是当前技术栈最不擅长的东西。