上季度,一家B2B SaaS公司收到一封措辞严厉的投诉邮件。客户的IT团队花了整整两天配置单点登录(SSO),却发现根本用不了——他们公司的AI助手信誓旦旦说"Pro套餐包含SSO",实际上只有Enterprise tier才有。
问题出在哪?助手检索了文档,没找到关于套餐边界的明确说明,于是基于训练数据"合理推测"了一个流畅的答案。用户无从分辨这是幻觉。
解决方案不是"换个大模型"。更大的语言模型只会更自信地产生同样的错误。真正缺的是一道从一开始就该有的防线:忠实度闸门(faithfulness gate)——在回复送达用户前,检查内容是否真的基于检索到的上下文。
这是生产级AI代理中杠杆效应最高的干预手段之一。大多数团队跳过它,因为失败模式在客户投诉前完全不可见。
忠实度到底测什么
核心问题只有一个:代理的回复是否做出了检索上下文支持的断言?
如果代理从知识库检索到"Pro tier包含基础功能X、Y、Z;Enterprise tier包含X、Y、Z及高级功能A、B、C,包括SSO",那么回复"您的Pro套餐包含SSO"就是不忠实的。检索上下文不支持这个断言。
这与"回复是否正确"不同。正确性需要 ground truth,忠实度只需要检索上下文。无需人工介入即可自动检查。
机制很简单:从回复中提取原子级断言,逐一核对检索上下文,返回分数。低于阈值则拦截回复。
闸门如何运转
模式很直接:
• 代理基于检索上下文生成回复
• 独立的大模型调用("评判者")从回复提取原子断言
• 评判者逐一检查每个断言是否被检索上下文支持
• 忠实度分数 = 被支持的断言占比
• 分数低于阈值(默认0.85)则拒绝回复
• 代理要么用修正后的上下文重试,要么返回"无法从现有信息中自信回答"
Ragas等框架直接实现了这一模式。也可以自己用结构化提示词单个大模型调用搭建。评判模型不必用生产模型,通常用GPT-4o-mini或Claude Haiku即可,成本够低,准确度足够。
为什么模型尺寸解决不了
更大的模型不会更少产生幻觉。它们是更自信的幻觉制造者。给定同样的不充分上下文,GPT-4o会写出更漂亮、结构更清晰、听起来更权威的答案——但仍然是错的。
忠实度闸门抓的是模型能力与信息质量之间的错配。当检索系统没返回决定性证据时,大模型会"脑补"合理内容填补空白。这不是bug,是语言模型的本质行为。
闸门不阻止模型生成,只阻止不基于证据的生成到达用户。这是生产系统与演示Demo的关键分野。
热门跟贴