「数百万美国人正在向AI聊天机器人询问医疗建议,而且经常是在没有咨询人类医生的情况下。」——这不是某家科技媒体的标题党,是《Nature Medicine》最新社论引用的调查数据。问题是,支撑这股潮流的「证据」本身,可能根本站不住脚。
一、幻觉问题:从「没见过图」到「编出病」
大语言模型(LLM)在医疗场景里的幻觉,已经离谱到研究者专门设计实验来「钓鱼」。
研究人员发现,AI会根据从未提供的图像,生成详细的临床发现报告。更荒诞的是,它们会被「假疾病」骗过——研究者专门虚构了一些疾病名称喂给模型,AI一本正经地分析症状、给出诊断建议。
《JAMA Medicine》的一项研究提供了更具体的数字:当面对症状描述更模糊的病例时,前沿AI模型的误诊率超过80%。
实验条件 vs 真实世界,这道鸿沟在医疗AI领域格外刺眼。实验室里表现「令人信服」的工具,一旦遇到不那么标准的病人,立刻露馅。
二、价值证据稀缺,但商业宣称早已满天飞
《Nature Medicine》这篇社论的核心指控很直接:「AI工具为患者、提供者或医疗系统创造价值的证据仍然稀缺。」
但稀缺不妨碍宣称泛滥。社论指出,在出版物和产品材料中,关于临床影响的声明越来越常见,「尽管对于这类声明在被视为可信之前需要何种程度的证据,尚无明确共识」。
结果是双重伤害:科学不确定性叠加过早的实施与采用。
这里有个值得细品的逻辑链条——不是因为有效才被采用,而是因为宣称有效+缺乏统一评估标准,导致「先用再说」成了默认选项。患者成了事实上的测试对象。
三、临床研究也在被「污染」
AI渗透的不只是诊疗前端,还有后端的研究生产。
哈佛医学院外科助理教授Jamie Robertson去年表态:「AI可以帮助加速许多繁琐且具有挑战性的流程,帮助编写数据分析代码,甚至提出场景假设。」
但她紧接着补了关键限制:「与AI互动参与临床研究的人,必须清楚了解其正确与错误的应用场景,以及在何种语境下使用。」
研究者的担忧是,过度依赖AI工具可能牺牲科学严谨性。具体风险包括:过度泛化的结论、潜在的幻觉数据,以及整个研究链条中难以察觉的「自动化偏见」——人倾向于相信机器输出,即使它明显有问题。
四、 urgently needed:一个根本不存在的评估框架
社论呼吁建立「医疗AI技术应如何被评估的框架,包括使用何种指标、对照哪些基准」。措辞是「urgently needed」,迫切 needed。
这个框架的缺失,解释了为什么同一套AI工具在不同医院、不同患者群体中的表现差异巨大,却没有人能明确说「这算不算合格」。没有统一基准,「有效」就成了各说各话的修辞游戏。
更麻烦的是,当商业公司抢先定义「成功」——比如用「医生满意度」替代「患者预后改善」——整个评估体系就被悄悄置换了。
五、用户行为已经跑在证据前面
回到开头那个数字:数百万美国人。这不是「未来可能」的场景,是正在发生的用户行为。
行为跑在证据前面,在科技产品史里不算新鲜事。但医疗的特殊性在于,错误代价不是「体验不好」而是身体损伤。社论没有明说但暗示的逻辑是:当用户已经大规模采用,而证据基础薄弱、评估框架缺失,监管和学术共同体实际上是在「追认」一个既成事实。
这种追认的代价,可能要多年后才能通过回顾性研究显现——而到那时,某些「过早采用」已经固化为标准流程。
为什么这件事现在值得盯着
《Nature Medicine》的炮火指向一个被刻意模糊的地带:AI医疗产品的「价值宣称」与「价值证据」之间的缝隙。这个缝隙正在被商业利益快速填充,而填充物是营销话术、模糊指标,以及「大家都用」的从众压力。
社论没有反对AI进入医疗,它反对的是「在没有明确评估标准的情况下宣称有效」。这个区分很重要——前者是技术乐观主义,后者是基本的科学诚实。
当一家顶级医学期刊用「scarce evidence」「premature implementation」「urgently needed」这样的词描述现状,它实际上是在划定一条红线:在框架建立之前,所有的「临床影响声明」都应该被默认存疑。这不是保守,是防止医疗AI重蹈太多数字健康产品的覆辙——热闹三年,证据归零,留下一地难以追踪的患者数据。
热门跟贴