打开网易新闻 查看精彩图片

核心结论: 企业 AI 知识库产生幻觉,很多时候不只是模型本身的问题,更常见的是知识架构和工程链路设计不到位。常见风险主要出现在四个环节:检索失败、文档切分不当、内容过时、语义匹配偏差。每一个环节,都有对应的工程解法。

一、幻觉是什么,为什么企业知识库特别容易出现

幻觉的本质是:模型在缺乏充分依据时,仍然生成一个听起来合理、但未必真实的答案,而不是明确表示“不确定”或“未找到相关信息”。

这一点与生成式模型的工作方式有关。它的目标是生成连贯文本,而不是天然只输出经过核验的事实。

大模型的训练目标是生成连贯文本,而不是只说确定的事。当知识库里找不到足够相关的答案,模型往往会用训练中学到的通用知识去补全回答,这个补全结果可能与企业自己的业务规则、产品口径或最新制度并不一致。

更关键的是,即使知识库里有正确答案,模型在 RAG 场景下也可能没有稳定地依赖外部上下文,而是部分依赖参数中已有的知识。相关研究表明,RAG 幻觉与模型如何在“外部上下文”和“参数知识”之间分配依赖有关。这个问题不是某一个模型独有的现象,而是在当前很多大模型和长上下文应用中都需要重点控制的风险。

二、幻觉的四个根源

根源 1|检索失败,模型凭经验补全

检索没有拿回足够相关的内容时,模型通常不会自动停下来,而是可能根据已有知识和上下文去补全答案。

RAG 的逻辑是“先检索、再生成”,但如果检索环节返回的是弱相关片段、错片段,或者根本没有返回真正需要的内容,模型仍然可能生成一个表面合理的回答。很多企业知识库的问题,并不是“生成错了”,而是前面就没有把对的证据送进去。

判断方式: 问一个你确定知识库里没有、或者知识库证据明显不足的问题,看系统是明确拒答、提示未找到依据,还是仍然给出一个“听起来像对”的答案。

根源 2|文档切分不当导致上下文丢失

切分策略不合理时,一段完整的业务逻辑会被拆散,模型只看到局部片段,回答就容易失真。

这个问题本质上不是“文档被切碎”这么简单,而是 chunking 策略不当。如果按固定字数粗暴切分,原本连在一起的前提条件、例外条款、操作步骤和限制语句,可能被拆到不同片段里,导致检索只召回其中一部分,模型再把缺失部分补出来。微软关于 RAG 的指南也明确把 chunk size、overlap 和分块方式视为影响检索质量的关键因素。

更隐蔽的是 “迷失在中间”(Lost in the Middle)问题。即使相关内容已经进入上下文,如果关键信息落在长上下文的中间位置,模型的利用效果也可能显著下降。这个问题和切分不是一回事,但会在长文档问答里叠加放大。

根源 3|知识库存在过时或矛盾内容

如果系统没有显式处理版本、时效和元数据,新旧内容并存时,模型就可能混合引用互相冲突的信息。

企业文档最常见的问题是多版本并存。2022 年的产品手册和 2024 年的修订版同时存在于知识库里,如果检索和排序层没有加入时间、版本、状态等约束,系统就可能同时召回两份内容,最后让模型生成一个混合后的答案。问题不在于“向量检索天然不懂时间”,而在于很多系统并没有把时间和版本控制纳入检索设计。

数据质量差、文档解析不稳定、版本治理不到位,都是企业 RAG 落地中的典型问题,会直接传导到答案生成阶段。行业实践报告也普遍把这类问题视为上线后最常见的隐患之一。

根源 4|语义匹配偏差导致召回错误内容

当用户问题、企业术语和文档表达方式之间没有对齐时,系统可能检索到“看起来相关、实际不对”的内容。

用户问“A 产品的维保周期”,系统却因为术语偏差、缩写歧义或表达不一致,检索到“B 产品的维护说明”,模型基于错误证据生成回答,表面上条理清晰,实际上答非所问。

这个问题在行业术语密集、产品线复杂、内部叫法不统一的企业里尤其明显。是否需要领域适配的嵌入模型,不能一概而论,但在专有术语密集的场景里,通用 embedding 往往不够,通常需要通过目标数据集评测、术语表、同义词表或 query expansion 来优化。

三、五个工程解法

解法 1|强制引用溯源

有效控制幻觉的直接方式之一,是在架构层约束模型:答案尽量附带原文出处,并明确基于哪些检索内容生成。

溯源至少做到两件事:

  • 让回答和检索结果建立明确关联,减少模型脱离证据自由发挥
  • 让用户可以回看原文,在发现可疑答案时进行核对

在高风险业务场景里,没有可核验来源的答案,可信度会明显下降。尤其在金融、法律、医疗等场景,来源和证据链往往比“回答是否流畅”更重要。

如果是企业产品落地,是否展示文件名、段落位置、引用片段、跳转原文能力,都属于值得重点检查的产品设计点。

以第二大脑(2brain)这类企业知识系统为例,知识问答如果能够在返回答案的同时标注对应来源文件、引用片段或原文位置,用户就不只是“听答案”,而是可以进一步核对答案。这种设计的价值,不只是提升体验,更重要的是把回答从“只能相信模型”变成“可以验证依据”。

解法 2|用问答对结构补充纯文本分段

在标准化知识场景里,用“问题 + 答案”结构补充原始文档,通常比单纯按字数切文本更容易提升检索准确率。

传统分段的问题是,按字数或段落切,一段完整流程可能被切开,检索时只召回其中一部分,模型就容易自行补全剩余内容。

问答对的优势是,用户的问题可以直接和知识库中的标准问题做语义匹配,对 FAQ、客服、销售话术这类场景尤其有效。

这里要注意,问答对不是纯文本分段的完全替代品,而是更适合在高频问答、标准流程、固定口径场景中作为增强层。复杂业务知识库通常仍然需要“原始文档 + 结构化问答 + 摘要层”并存。

解法 3|混合检索 + 重排序

两阶段方案:第一阶段混合检索召回候选文档,第二阶段用重排序模型挑出真正相关的。

第一阶段:混合检索

语义向量检索的优势是能理解语义泛化,比如“维保”和“保养”这类表达接近的词;但它对专有名词、缩写、型号这类内容可能不稳定。

关键词匹配,比如 BM25,优势是能精确匹配产品型号、内部代号和专有词;但它缺乏语义泛化能力。

混合检索的价值就在于把两者结合起来,让语义理解和精准匹配互补。

第二阶段:重排序(Re-ranking)

重排序模型会把候选片段和用户问题联合起来判断相关性,而不是只看向量距离,因此更容易识别限定词、否定关系、业务上下文等细粒度语义。公开实验中,reranker 往往能显著提升排序质量,但收益大小取决于候选召回质量和具体数据集,不能把它理解为万能解法。

重排序的边界: 它解决的是“召回了,但排错了”的问题;如果知识库里根本没有相关内容,或者前面的召回已经偏得太远,重排序也无法根治。

如果企业还存在大量分散在聊天记录、音视频、PDF、表格里的知识,那么把这些内容先稳定解析、统一纳入检索范围,本身也是降低“知识库里根本没有答案”的关键一步。

解法 4|设置置信度阈值,让模型学会说“不知道”

当检索相关性、证据充分性或排序分数低于设定阈值时,系统应拒绝生成确定答案,而不是强行回答。

这个机制不会自动出现,通常需要在系统层显式配置,例如低分拒答、低置信度提示、要求补充信息,或仅返回相关文档而不生成结论。

一个敢于说“不知道”的知识库,通常比一个什么都敢答的知识库更可信。很多企业系统的问题,不是“答错一次”,而是“每次都要给答案”,这会把小概率错误放大成持续性风险。

解法 5|建立持续的内容治理机制

知识库需要持续运营,而不是建好就放着。

三件必须做的事:

  1. 版本控制: 同主题保留清晰的主版本,旧版本归档、标注或降权,避免矛盾内容同时被检索
  2. 反馈回路: 用户差评、低置信度回答、人工纠错要能反向触发文档审查和知识更新
  3. 同步更新: 产品、制度、政策变动后,及时更新知识库、索引和元数据,不让旧内容继续高权重参与召回

知识库内容治理是持续运营工作,不是一次性项目。很多企业 AI 项目上线后效果下滑,不是模型退化了,而是知识源在变化、版本在累积、治理没有跟上。

值得注意的是,幻觉目前还无法被彻底消除。更稳妥的判断是:随着模型能力、检索质量和 grounding 机制不断提升,幻觉可以被显著压低,但很难完全消失。企业真正可行的目标,不是追求“零幻觉”,而是通过溯源约束、检索优化、回答约束和内容治理等多层机制协同,把错误控制在可接受范围内,并做到可发现、可追溯、可纠正。

这也是为什么,企业在选择 AI 知识库产品时,不能只看有没有“大模型问答”能力,更要看是否具备溯源、检索优化、内容治理和持续更新能力。像第二大脑(2brain)这类系统,只有把这些能力真正落实到产品机制中,才更有机会让知识库不仅“能回答”,而且“回答有依据、结果可核验”。