FDA批准的AI诊断工具，医院用起来却慢了40%|ai诊断工具|fda|伦敦|基准|放射科

2024年，美国放射科AI产品的平均基准测试准确率是97.3%。同一批产品进入加州和伦敦的医院后，放射科医生报告的工作效率变化：有人省了15分钟，有人多了20分钟，更多人说不清到底有没有变快。

同一个数字，两种现实。这种割裂正在每个部署AI的行业重复上演。

真空测试 vs 真实战场

AI基准测试的设计逻辑很古老——让机器和人单挑。数学题、代码题、医学影像判读，评分标准清晰，排名一目了然。这套体系从国际象棋延续至今，养活了无数排行榜和发布会PPT。

问题是，真实场景从来不是单挑。

伦敦某医院放射科主任向我描述过典型的一天：AI标注完肺部CT的可疑结节后，住院医师需要核对医院内部的报告模板，确认是否符合英国NHS的转诊规范，再判断要不要追加患者病史询问。原本"AI比专家读片更快"的卖点，在实际流程中被拆解成七个步骤，每个步骤都卡在人和系统的接缝处。

「我们不是在用AI，是在用AI之后的一整套补丁。」这位主任说。

我2022年开始跟踪英美亚三地的AI部署案例，覆盖小商户、医疗、人道救援、高校和非营利组织。一个反复出现的模式：组织采购AI时看的是任务级评分，实际运转时暴露的是系统级摩擦。基准测试测量的是AI在真空中的性能，而价值产生于人和AI的协作网络。

时间维度被抹掉了

现有基准测试的另一个盲区：时长。

标准测试是快照式的——输入问题，输出答案，计时结束。但真实组织使用AI是连续剧：第一周的新鲜期，第三个月的熟练期，第六个月的倦怠期或重构期。性能曲线不是直线，甚至不是可预测的曲线。

硅谷一家设计公司的案例很典型。他们2023年初引入AI编程助手，前两个月工程师反馈"效率提升明显"，第四个月开始出现"AI生成的代码需要更多时间审查"，第六个月团队悄悄恢复了部分人工编码流程。基准测试不会捕捉这种衰减，因为测试周期以小时计，而组织学习以季度计。

更隐蔽的是风险累积。医疗AI的误诊率在短期测试中可能低于人类专家，但长期使用中，过度依赖AI导致的技能退化、异常案例的识别能力下降，这些系统性风险在现有评估框架里几乎没有位置。

HAIC：把人和组织放回等式

基于这些观察，我提出HAIC基准测试框架——Human-AI, Context-Specific Evaluation（人机协作、情境化评估）。核心是把评估单元从"AI单独完成任务"转向"AI在特定组织情境中与人协作的效能"。

具体有三个转向：

第一，从任务到工作流。不测试AI能不能写代码，测试AI介入后完整需求交付周期的变化；不测试AI读片准确率，测试从影像上传到报告签发的全流程时间分布。关键是捕捉AI在链条中的真实位置，而不是假设它替代了某个环节。

第二，从即时到 longitudinal（纵向追踪）。至少6-12个月的跟踪期，记录性能曲线、用户行为迁移、组织规则调整。短期峰值可能是蜜月效应，长期 plateau（平台期）或 decline（衰退）才是决策依据。

第三，从通用到情境。同一款AI在不同组织的效能差异巨大。HAIC要求针对具体部署情境设计评估——同一款客服AI，在电商退货场景和银行投诉场景的协作模式完全不同，应该分别测量。

英国一家小型诊所的试点说明了这种差异。他们测试的放射科AI在标准基准上评分极高，但HAIC评估发现：诊所只有一名放射科医师，AI的"辅助"功能实际上增加了他的认知负荷——他需要同时监控AI输出和最终签字责任。这个发现没有出现在任何产品白皮书里。

谁来买单？

HAIC比传统基准测试昂贵得多。时间成本、组织配合成本、情境定制成本，都是数量级增长。

但这笔账需要重新算。2023年企业AI采购的隐性失败成本——集成后弃用、流程重构、人员再培训——很少被计入总拥有成本（TCO）。HAIC的前期投入，本质是把这些后期风险前置识别。

监管层面也有信号。FDA 2024年更新的AI/ML医疗器械指导原则，首次明确要求提交"真实世界性能数据"，而非仅依赖回顾性数据集测试。欧盟AI法案的高风险系统条款，也在推动从"上市前批准"向"全生命周期监控"转移。HAIC框架与这些监管方向兼容，但比监管要求更前置、更颗粒化。

技术供应商的态度分化明显。头部云厂商开始提供"组织适配度评估"作为增值服务，本质是HAIC的轻量化版本；初创公司则抵触，担心暴露产品在复杂情境下的脆弱性。这种分化本身说明市场尚未形成共识。

一个值得观察的指标：2024年Q3，Gartner首次将"AI基准测试与现实效能差距"列入技术成熟度曲线的风险警示区。这是企业采购决策开始转向的信号，还是又一轮概念炒作的前奏？

如果你所在的公司正在评估AI采购，你们会把"6个月真实环境试点"写进招标文件吗，还是继续相信那个97.3%？

FDA批准的AI诊断工具，医院用起来却慢了40%

真空测试 vs 真实战场

时间维度被抹掉了

HAIC：把人和组织放回等式

谁来买单？

热搜

热门跟贴

真空测试 vs 真实战场

时间维度被抹掉了

HAIC：把人和组织放回等式

谁来买单？

热搜

热门跟贴

相关推荐

中美韩顶尖AI人才数如断崖：美国57%，韩国仅0.5%，中国令人意外

谷歌测了10年发现：AI写代码快3倍，debug时间却翻倍

这个程序员把AI的健忘症治好了，调试效率翻了3倍

AI正在批量制造伪专家，这些关键信号要警惕

Anthropic内部数据曝光：1个文件让AI效率暴涨40%

谷歌工程师把AI失败率做到91%：越不准，越敢用

API文档写了300页，AI还是看不懂

现在的ai也太牛了，病人都能追上汽车了

40 个 AI agent 跑营销，还不是最狠的

AI无处不在，请大家擦亮眼睛，也希望平台监管严格！

AI反向成信息茧房，用户越依赖，茧房越深越牢！

AI制药，又一重磅合作达成

国产设备市占率过半，超声设备进入“AI+国产”时代

1美元Token撬动4800美元收益!百万美元级基准,最赚钱Agent出现了

AI能否「圣地巡礼」？多模态大模型全新评估基准VIR-Bench来了

“龙虾们”为什么还进不了企业现场?

YC掌门人惊呼：这就是 AGI！4天、零读码，AI移植37年古董软件

有点伤自尊，但太值了！Karpathy：当AI接管80%代码，我看清了AGI魔法

AI的看图能力，可能是编出来的

AI自主开发团队崛起，一个月搞定传统团队数月工作量