别再迷信AI跑分了：考试成绩好，工作干不了|伦敦|基准

几十年来，人类评估 AI 能力的方法论，都是围绕着“机器能否超越人类”的思路展开的。从国际象棋到高等数学，从编程到写作，AI 模型和应用的性能都是让它和人类的表现水准做对比来检验的。

这种框架很有吸引力：在有明确对错答案的独立问题上做 AI 与人类的比较，容易标准化、容易比较、容易优化。它能生成排行榜和新闻标题。

但问题在于：AI 被使用的方法，和 AI 被测试的方法，是两种完全不同的体系。虽然研究人员和行业已经开始改进基准测试，从静态测试转向更动态的评估方法，但这些创新只解决了部分问题。因为它们仍然在脱离人类团队和组织工作流程的条件下评估 AI 的表现，而 AI 的真实性能恰恰是在这些环境中展现的。

AI 在真空中被逐项评估，但它的实际使用场景是混乱而复杂的，通常需要与不止一个人互动。它的表现（或表现不佳）只有经过长时间使用才能显现。这种错位让我们误判了 AI 的能力，忽视了系统性风险，也对其经济和社会后果做出了错误估计。

为了改变这一状况，是时候从狭隘的评估方法转向一种新的基准测试了，这种测试应当评估 AI 系统在更长时间维度内、在人类团队、工作流程和组织中的实际表现。自 2022 年以来，我研究了 AI 在英国、美国和亚洲的小型企业、医疗、人道主义、非营利和高等教育机构中的实际部署情况，也深入了解了伦敦和硅谷领先的 AI 设计生态。我提出了一种不同的方法，称之为 HAIC 基准测试——即“人类-AI 场景化评估”（Human–AI, Context-Specific Evaluation）。

当前基准测试的盲区

对政府和企业而言，AI 基准分数看起来比供应商的自我宣传更客观。它们是判断一个 AI 模型或应用是否“够格”投入实际部署的关键依据。想象一个 AI 模型在最前沿的基准测试上取得了亮眼的技术分数——98% 的准确率、突破性的速度、令人信服的输出。凭借这些成绩，机构可能决定采用这个模型，投入大量财务和技术资源进行采购和集成。

但一旦投入使用，基准成绩和真实表现之间的差距就迅速暴露出来了。以大量通过 FDA 批准的、能比放射科专家更快更准地判读医学影像的 AI 模型为例。在从加州腹地到伦敦郊区的医院放射科，我亲眼看到工作人员使用排名靠前的放射科 AI 应用。他们反复需要花额外时间将 AI 的输出结果与医院特定的报告标准和各国不同的监管要求进行对照解读。一个在真空中测试时看似能提升生产力的 AI 工具，在实践中反而带来了延误。

用来评估医疗 AI 模型的基准测试并没有捕捉到医疗决策的真实过程。医院依靠的是放射科医生、肿瘤科医生、物理师、护士等多学科团队共同会诊患者，治疗方案很少取决于一个静态的决定，它随着几天或几周内出现的新信息不断演进。决策往往产生于建设性的讨论，需要在专业标准、患者偏好和患者长期健康这一共同目标之间做出权衡。难怪即使得分很高的 AI 模型，一旦遇到真实临床诊疗中复杂的协作流程，就难以兑现承诺的表现。

我在其他行业的研究中也看到了同样的模式：即使在标准化测试中表现出色的 AI 模型，一旦嵌入真实的工作环境，表现就达不到预期。

当高基准分数无法转化为真实表现时，即使得分最高的 AI 也很快会被丢进 AI 坟场”。代价是巨大的：时间、精力和资金都打了水漂。长此以往，这种反复的经历会侵蚀组织对 AI 的信心，在医疗等关键领域，还可能侵蚀公众对这项技术的信任。

当现有的基准测试只能提供关于 AI 模型是否适合实际使用的片面甚至误导性信号时，就会造成监管盲区：监管框架是基于不反映现实的指标来制定的。这也让组织和政府承担了在敏感的真实场景中测试 AI 的风险，而且往往缺乏资源和支持。

如何构建更好的测试

要弥合基准测试和真实表现之间的差距，我们必须关注 AI 模型实际使用的条件。核心问题是：AI 能否作为人类团队中的一个有效参与者发挥作用？它能否产生持续的、集体性的价值？

通过我对多个行业 AI 部署的研究，我看到一些组织已经在有意识、实验性地向我所倡导的 HAIC 基准测试方向迈进。

HAIC 基准测试从四个维度重构了现有的评估框架：

分析单元而言，应从个人单任务表现转向团队和工作流程表现；从时间指标角度，应从有标准答案的一次性测试转向长期影响评估；从性能指标而言，应从正确性和速度转向组织层面的成效、协作质量和错误可发现性；从系统效应而言，应从孤立的输出转向上下游连锁效应（系统效应）。

在这套方法开始被应用的组织中，第一步是改变分析单元。

以 2021 年至 2024 年间英国一家医院体系为例，他们把问题从“某个医疗 AI 应用是否提高了诊断准确率”扩展为“AI 在医院多学科团队中的存在如何影响准确率、协作和集体讨论”。医院专门评估了使用和未使用 AI 的人类团队在协作和讨论方面的差异。院内外的多方利益相关者共同确定了评估指标，比如 AI 如何影响集体推理、它是否能发现被忽略的考量、它是加强还是削弱了协作，以及它是否改变了已有的风险管控和合规实践。

这一转变具有根本性意义。在系统层面效应比单项任务准确率更重要的高风险场景中，这一点尤为关键。它可能有助于重新校正那些被夸大的生产力预期——这些预期迄今为止主要建立在提升个人任务表现的承诺之上。

在这个基础建立之后，HAIC 基准测试才能开始纳入时间维度。

今天的基准测试像学校考试，是一次性的、标准化的准确率测试。但真正的职业能力是以不同的方式来评估的。初级医生和律师是在真实工作流程中被持续考核的，有督导、有反馈机制、有问责体系。能力评估是在一段时间内、在具体的环境中进行的，因为胜任力是关系性的。如果 AI 系统要与专业人士协同工作，它们的影响也应当以纵向视角来评判，反映其表现在反复互动中如何演变。

我在一个人道主义领域的案例研究中看到了 HAIC 这一维度的应用。在 18 个月的时间里，一个 AI 系统在真实工作流程中被持续评估，重点关注其错误的可发现性，也就是人类团队能否方便地识别和纠正错误。这份长期的“错误可发现性记录”让相关组织能够设计和测试针对具体场景的安全护栏，在 AI 不可避免会偶尔犯错的前提下促进对系统的信任。

更长的时间维度还能揭示短期基准测试忽略的系统层面后果。一个 AI 应用可能在某个狭窄的诊断任务上超越单个医生，但未能改善多学科决策。更糟糕的是，它可能引入系统性的扭曲：过早地让团队锚定在看似合理但并不完整的答案上，增加人们的认知负担，或者在下游环节产生低效，抵消了 AI 使用点上的速度和效率收益。这些连锁效应往往是现有基准测试看不到的，却是理解真实影响的核心。

HAIC 方法确实会让基准测试变得更复杂、更消耗资源、更难标准化。但如果我们继续在脱离真实工作环境的无菌条件下评估 AI，就会一直误解它真正能为我们做什么、不能做什么。要在真实场景中负责任地部署 AI，我们必须衡量真正重要的东西：不仅仅是一个模型独自能做什么，而是当真实世界中的人和团队与它协作时，它促成了什么，又破坏了什么。

https://www.technologyreview.com/2026/03/31/1134833/ai-benchmarks-are-broken-heres-what-we-need-instead/