2024年,美国放射科AI产品的平均基准测试准确率是97.3%。同一批产品进入加州和伦敦的医院后,放射科医生报告的工作效率变化:有人省了15分钟,有人多了20分钟,更多人说不清到底有没有变快。
同一个数字,两种现实。这种割裂正在每个部署AI的行业重复上演。
真空测试 vs 真实战场
AI基准测试的设计逻辑很古老——让机器和人单挑。数学题、代码题、医学影像判读,评分标准清晰,排名一目了然。这套体系从国际象棋延续至今,养活了无数排行榜和发布会PPT。
问题是,真实场景从来不是单挑。
伦敦某医院放射科主任向我描述过典型的一天:AI标注完肺部CT的可疑结节后,住院医师需要核对医院内部的报告模板,确认是否符合英国NHS的转诊规范,再判断要不要追加患者病史询问。原本"AI比专家读片更快"的卖点,在实际流程中被拆解成七个步骤,每个步骤都卡在人和系统的接缝处。
「我们不是在用AI,是在用AI之后的一整套补丁。」这位主任说。
我2022年开始跟踪英美亚三地的AI部署案例,覆盖小商户、医疗、人道救援、高校和非营利组织。一个反复出现的模式:组织采购AI时看的是任务级评分,实际运转时暴露的是系统级摩擦。基准测试测量的是AI在真空中的性能,而价值产生于人和AI的协作网络。
时间维度被抹掉了
现有基准测试的另一个盲区:时长。
标准测试是快照式的——输入问题,输出答案,计时结束。但真实组织使用AI是连续剧:第一周的新鲜期,第三个月的熟练期,第六个月的倦怠期或重构期。性能曲线不是直线,甚至不是可预测的曲线。
硅谷一家设计公司的案例很典型。他们2023年初引入AI编程助手,前两个月工程师反馈"效率提升明显",第四个月开始出现"AI生成的代码需要更多时间审查",第六个月团队悄悄恢复了部分人工编码流程。基准测试不会捕捉这种衰减,因为测试周期以小时计,而组织学习以季度计。
更隐蔽的是风险累积。医疗AI的误诊率在短期测试中可能低于人类专家,但长期使用中,过度依赖AI导致的技能退化、异常案例的识别能力下降,这些系统性风险在现有评估框架里几乎没有位置。
HAIC:把人和组织放回等式
基于这些观察,我提出HAIC基准测试框架——Human-AI, Context-Specific Evaluation(人机协作、情境化评估)。核心是把评估单元从"AI单独完成任务"转向"AI在特定组织情境中与人协作的效能"。
具体有三个转向:
第一,从任务到工作流。不测试AI能不能写代码,测试AI介入后完整需求交付周期的变化;不测试AI读片准确率,测试从影像上传到报告签发的全流程时间分布。关键是捕捉AI在链条中的真实位置,而不是假设它替代了某个环节。
第二,从即时到 longitudinal(纵向追踪)。至少6-12个月的跟踪期,记录性能曲线、用户行为迁移、组织规则调整。短期峰值可能是蜜月效应,长期 plateau(平台期)或 decline(衰退)才是决策依据。
第三,从通用到情境。同一款AI在不同组织的效能差异巨大。HAIC要求针对具体部署情境设计评估——同一款客服AI,在电商退货场景和银行投诉场景的协作模式完全不同,应该分别测量。
英国一家小型诊所的试点说明了这种差异。他们测试的放射科AI在标准基准上评分极高,但HAIC评估发现:诊所只有一名放射科医师,AI的"辅助"功能实际上增加了他的认知负荷——他需要同时监控AI输出和最终签字责任。这个发现没有出现在任何产品白皮书里。
谁来买单?
HAIC比传统基准测试昂贵得多。时间成本、组织配合成本、情境定制成本,都是数量级增长。
但这笔账需要重新算。2023年企业AI采购的隐性失败成本——集成后弃用、流程重构、人员再培训——很少被计入总拥有成本(TCO)。HAIC的前期投入,本质是把这些后期风险前置识别。
监管层面也有信号。FDA 2024年更新的AI/ML医疗器械指导原则,首次明确要求提交"真实世界性能数据",而非仅依赖回顾性数据集测试。欧盟AI法案的高风险系统条款,也在推动从"上市前批准"向"全生命周期监控"转移。HAIC框架与这些监管方向兼容,但比监管要求更前置、更颗粒化。
技术供应商的态度分化明显。头部云厂商开始提供"组织适配度评估"作为增值服务,本质是HAIC的轻量化版本;初创公司则抵触,担心暴露产品在复杂情境下的脆弱性。这种分化本身说明市场尚未形成共识。
一个值得观察的指标:2024年Q3,Gartner首次将"AI基准测试与现实效能差距"列入技术成熟度曲线的风险警示区。这是企业采购决策开始转向的信号,还是又一轮概念炒作的前奏?
如果你所在的公司正在评估AI采购,你们会把"6个月真实环境试点"写进招标文件吗,还是继续相信那个97.3%?
热门跟贴