顶级医学期刊开炮：医疗AI的"价值证据"在哪？

摸鱼算法

2026-04-27 16:55 ·北京

「数百万美国人正在向AI聊天机器人询问医疗建议，而且经常是在没有咨询人类医生的情况下。」——这不是某家科技媒体的标题党，是《Nature Medicine》最新社论引用的调查数据。问题是，支撑这股潮流的「证据」本身，可能根本站不住脚。

一、幻觉问题：从「没见过图」到「编出病」

大语言模型（LLM）在医疗场景里的幻觉，已经离谱到研究者专门设计实验来「钓鱼」。

研究人员发现，AI会根据从未提供的图像，生成详细的临床发现报告。更荒诞的是，它们会被「假疾病」骗过——研究者专门虚构了一些疾病名称喂给模型，AI一本正经地分析症状、给出诊断建议。

《JAMA Medicine》的一项研究提供了更具体的数字：当面对症状描述更模糊的病例时，前沿AI模型的误诊率超过80%。

实验条件 vs 真实世界，这道鸿沟在医疗AI领域格外刺眼。实验室里表现「令人信服」的工具，一旦遇到不那么标准的病人，立刻露馅。

二、价值证据稀缺，但商业宣称早已满天飞

《Nature Medicine》这篇社论的核心指控很直接：「AI工具为患者、提供者或医疗系统创造价值的证据仍然稀缺。」

但稀缺不妨碍宣称泛滥。社论指出，在出版物和产品材料中，关于临床影响的声明越来越常见，「尽管对于这类声明在被视为可信之前需要何种程度的证据，尚无明确共识」。

结果是双重伤害：科学不确定性叠加过早的实施与采用。

这里有个值得细品的逻辑链条——不是因为有效才被采用，而是因为宣称有效+缺乏统一评估标准，导致「先用再说」成了默认选项。患者成了事实上的测试对象。

三、临床研究也在被「污染」

AI渗透的不只是诊疗前端，还有后端的研究生产。

哈佛医学院外科助理教授Jamie Robertson去年表态：「AI可以帮助加速许多繁琐且具有挑战性的流程，帮助编写数据分析代码，甚至提出场景假设。」

但她紧接着补了关键限制：「与AI互动参与临床研究的人，必须清楚了解其正确与错误的应用场景，以及在何种语境下使用。」

研究者的担忧是，过度依赖AI工具可能牺牲科学严谨性。具体风险包括：过度泛化的结论、潜在的幻觉数据，以及整个研究链条中难以察觉的「自动化偏见」——人倾向于相信机器输出，即使它明显有问题。

四、 urgently needed：一个根本不存在的评估框架

社论呼吁建立「医疗AI技术应如何被评估的框架，包括使用何种指标、对照哪些基准」。措辞是「urgently needed」，迫切 needed。

这个框架的缺失，解释了为什么同一套AI工具在不同医院、不同患者群体中的表现差异巨大，却没有人能明确说「这算不算合格」。没有统一基准，「有效」就成了各说各话的修辞游戏。

更麻烦的是，当商业公司抢先定义「成功」——比如用「医生满意度」替代「患者预后改善」——整个评估体系就被悄悄置换了。

五、用户行为已经跑在证据前面

回到开头那个数字：数百万美国人。这不是「未来可能」的场景，是正在发生的用户行为。

行为跑在证据前面，在科技产品史里不算新鲜事。但医疗的特殊性在于，错误代价不是「体验不好」而是身体损伤。社论没有明说但暗示的逻辑是：当用户已经大规模采用，而证据基础薄弱、评估框架缺失，监管和学术共同体实际上是在「追认」一个既成事实。

这种追认的代价，可能要多年后才能通过回顾性研究显现——而到那时，某些「过早采用」已经固化为标准流程。

为什么这件事现在值得盯着

《Nature Medicine》的炮火指向一个被刻意模糊的地带：AI医疗产品的「价值宣称」与「价值证据」之间的缝隙。这个缝隙正在被商业利益快速填充，而填充物是营销话术、模糊指标，以及「大家都用」的从众压力。

社论没有反对AI进入医疗，它反对的是「在没有明确评估标准的情况下宣称有效」。这个区分很重要——前者是技术乐观主义，后者是基本的科学诚实。

当一家顶级医学期刊用「scarce evidence」「premature implementation」「urgently needed」这样的词描述现状，它实际上是在划定一条红线：在框架建立之前，所有的「临床影响声明」都应该被默认存疑。这不是保守，是防止医疗AI重蹈太多数字健康产品的覆辙——热闹三年，证据归零，留下一地难以追踪的患者数据。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴