大多数做AI智能体的团队,都在输出质量检查上花了心思。他们用大模型当裁判给回答打分,看相关性和事实依据够不够,低于阈值的 flagged 出来人工复核。仪表盘建起来了,数字也在盯着。
但他们通常没做到一件事:在用户看到之前,把坏结果拦下来。
这里有个结构性断层。行业现在的工具几乎全是"评估导向"——测量发生了什么,而不是"执行导向"——在运行时决定怎么办。评估有必要,但不够。对要执行关键任务的智能体来说,这个区别影响很大。
评估工具确实成熟了。Arize Phoenix、LangSmith、Braintrust 这些产品给工程团队提供了复杂的能力:大模型裁判打分、RAG三件套评估(事实依据、上下文相关性、回答相关性)、幻觉检测、自定义评分规则。这些工具对大规模理解输出质量确实有用。
但它们有个共同的设计模式:作为可观测性和评估层运行。它们看着智能体产出什么,打分,把结果呈现出来分析。它们不会坐在执行路径上,根据评估结果做决策——升级这个、重试那个、完全阻断这个。
这就造成了一个缺口,而且智能体任务越重要,缺口越致命。Suprmind AI 2026年对37个模型的基准测试显示,幻觉率在15%到52%之间。这不是小实验里的偶然现象,是生产级智能体系统的基线状态。如果质量门只是观察,那你是在监控失败率,而不是真正守住底线。
大模型当裁判已经成了自动化评估的主流范式,理由也充分:能规模化,能处理正则表达式搞不定的微妙之处,现代裁判模型评估相关性、语气、事实连贯性确实做得不错。
但它有两个结构性问题。
第一是循环问题。当被评估的模型和裁判模型来自同一家族——基于同样的基础权重、在重叠数据上训练——裁判会继承同样的盲点。一个模型倾向于在错误时听起来很自信,它评估自己"自信但错误"的输出时,往往会判为正确。用多个不同厂商的裁判模型做集成能缓解,但会增加延迟和成本。HN社区直接对这个提出过质疑,这是合理的担心,不只是理论上的。
第二是延迟现实。在用户-facing的同步智能体工作流里,对每个输出跑大模型评估会带来明显的延迟。实践中大多数团队要么接受节流,要么把评估移到异步事后处理——这时用户已经看到结果了。
热门跟贴