AI智能体上线后，为什么15%的幻觉拦不住？

固件更新中

2026-05-14 09:52 ·北京

大多数做AI智能体的团队，都在输出质量检查上花了心思。他们用大模型当裁判给回答打分，看相关性和事实依据够不够，低于阈值的 flagged 出来人工复核。仪表盘建起来了，数字也在盯着。

但他们通常没做到一件事：在用户看到之前，把坏结果拦下来。

这里有个结构性断层。行业现在的工具几乎全是"评估导向"——测量发生了什么，而不是"执行导向"——在运行时决定怎么办。评估有必要，但不够。对要执行关键任务的智能体来说，这个区别影响很大。

评估工具确实成熟了。Arize Phoenix、LangSmith、Braintrust 这些产品给工程团队提供了复杂的能力：大模型裁判打分、RAG三件套评估（事实依据、上下文相关性、回答相关性）、幻觉检测、自定义评分规则。这些工具对大规模理解输出质量确实有用。

但它们有个共同的设计模式：作为可观测性和评估层运行。它们看着智能体产出什么，打分，把结果呈现出来分析。它们不会坐在执行路径上，根据评估结果做决策——升级这个、重试那个、完全阻断这个。

这就造成了一个缺口，而且智能体任务越重要，缺口越致命。Suprmind AI 2026年对37个模型的基准测试显示，幻觉率在15%到52%之间。这不是小实验里的偶然现象，是生产级智能体系统的基线状态。如果质量门只是观察，那你是在监控失败率，而不是真正守住底线。

大模型当裁判已经成了自动化评估的主流范式，理由也充分：能规模化，能处理正则表达式搞不定的微妙之处，现代裁判模型评估相关性、语气、事实连贯性确实做得不错。

但它有两个结构性问题。

第一是循环问题。当被评估的模型和裁判模型来自同一家族——基于同样的基础权重、在重叠数据上训练——裁判会继承同样的盲点。一个模型倾向于在错误时听起来很自信，它评估自己"自信但错误"的输出时，往往会判为正确。用多个不同厂商的裁判模型做集成能缓解，但会增加延迟和成本。HN社区直接对这个提出过质疑，这是合理的担心，不只是理论上的。

第二是延迟现实。在用户-facing的同步智能体工作流里，对每个输出跑大模型评估会带来明显的延迟。实践中大多数团队要么接受节流，要么把评估移到异步事后处理——这时用户已经看到结果了。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴