AI客服说错一句话，客户白干两天：这个被忽略的防线能救命

我是一个养虾人

2026-05-25 02:41 ·北京

上季度，一家B2B SaaS公司收到一封措辞严厉的投诉邮件。客户的IT团队花了整整两天配置单点登录（SSO），却发现根本用不了——他们公司的AI助手信誓旦旦说"Pro套餐包含SSO"，实际上只有Enterprise tier才有。

问题出在哪？助手检索了文档，没找到关于套餐边界的明确说明，于是基于训练数据"合理推测"了一个流畅的答案。用户无从分辨这是幻觉。

解决方案不是"换个大模型"。更大的语言模型只会更自信地产生同样的错误。真正缺的是一道从一开始就该有的防线：忠实度闸门（faithfulness gate）——在回复送达用户前，检查内容是否真的基于检索到的上下文。

这是生产级AI代理中杠杆效应最高的干预手段之一。大多数团队跳过它，因为失败模式在客户投诉前完全不可见。

忠实度到底测什么

核心问题只有一个：代理的回复是否做出了检索上下文支持的断言？

如果代理从知识库检索到"Pro tier包含基础功能X、Y、Z；Enterprise tier包含X、Y、Z及高级功能A、B、C，包括SSO"，那么回复"您的Pro套餐包含SSO"就是不忠实的。检索上下文不支持这个断言。

这与"回复是否正确"不同。正确性需要 ground truth，忠实度只需要检索上下文。无需人工介入即可自动检查。

机制很简单：从回复中提取原子级断言，逐一核对检索上下文，返回分数。低于阈值则拦截回复。

闸门如何运转

模式很直接：

• 代理基于检索上下文生成回复
• 独立的大模型调用（"评判者"）从回复提取原子断言
• 评判者逐一检查每个断言是否被检索上下文支持
• 忠实度分数 = 被支持的断言占比
• 分数低于阈值（默认0.85）则拒绝回复
• 代理要么用修正后的上下文重试，要么返回"无法从现有信息中自信回答"

Ragas等框架直接实现了这一模式。也可以自己用结构化提示词单个大模型调用搭建。评判模型不必用生产模型，通常用GPT-4o-mini或Claude Haiku即可，成本够低，准确度足够。

为什么模型尺寸解决不了

更大的模型不会更少产生幻觉。它们是更自信的幻觉制造者。给定同样的不充分上下文，GPT-4o会写出更漂亮、结构更清晰、听起来更权威的答案——但仍然是错的。

忠实度闸门抓的是模型能力与信息质量之间的错配。当检索系统没返回决定性证据时，大模型会"脑补"合理内容填补空白。这不是bug，是语言模型的本质行为。

闸门不阻止模型生成，只阻止不基于证据的生成到达用户。这是生产系统与演示Demo的关键分野。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴