ACL 2026 | Stable-RAG：破解RAG中的检索排列幻觉，让大模型推理更稳健|top|人工智能模型|推理|聚类|鲁棒性

检索增强生成（RAG）已成为减少大语言模型（LLMs）事实性幻觉的关键范式。然而，我们是否真正了解检索文档的顺序是如何影响模型行为的？

论文标题： Stable-RAG: Mitigating Retrieval-Permutation-Induced Hallucinations in Retrieval-Augmented Generation 论文链接： https://arxiv.org/pdf/2601.02993 项目主页： https://github.com/zqc1023/Stable-RAG

近日，北京航空航天大学人工智能学院联合中科院计算所的一篇关于RAG检索排列幻觉的研究工作被计算语言学与自然语言处理领域顶级国际会议ACL 2026录用，论文、代码、模型均将开源。

本文的主要贡献为：

发现新漏洞：揭示了RAG系统对检索文档顺序的高度敏感性，即使包含黄金文档，简单的顺序重排也会导致模型产生不一致的推理路径和幻觉。
提出新方法：提出了Stable-RAG，利用隐藏状态聚类来识别主导推理模式，并通过DPO对齐不同排列下的推理结果，实现模型无关的稳健推理。
性能强劲：在三个QA数据集上，Stable-RAG在准确性、推理一致性和跨数据集和检索器的泛化能力上均优于强基线模型。

一、研究动机

图1: NQ测试集上不同LLaMA模型的扰动成功率（PSR）。该指标统计了在固定黄金文档在不同位置的情况下，1000个随机样本中因文档顺序扰动导致模型产生幻觉的比例。

图2: 隐藏状态聚类行为分析。该图展示了Top-5文档全排列下，模型各层推理状态的聚类数量变化，揭示了推理轨迹的不稳定性。

尽管RAG通过引入外部文档显著提升了大模型在知识密集型任务中的表现，但现有的研究大多集中在提高检索质量（如过滤噪声文档）或解决长文本中的位置偏差上。研究团队发现了一个此前未被充分探索的问题：检索排列敏感性。

实验表明，在Top-5检索设置中，即使检索到的文档内容完全相同且包含正确答案（黄金文档），仅仅是改变这些文档的排列顺序，就会导致LLM走上完全不同的推理路径，从而产生不一致甚至错误的回答。如图1所示，当黄金文档固定在第一位时，模型仍可能忽略它并产生与证据冲突的回答。
根源：这种敏感性并非源于文档质量差，而是源于LLM内部推理动态的结构性不稳定。随着模型层数加深，文档排列的变化会诱导产生越来越多的不同推理轨迹，导致高层表示出现显著分歧（如图2所示）。

二、方法：Stable-RAG 框架

图3: Stable-RAG的整体框架图

为了解决这一问题，作者提出了 Stable-RAG，该方法显式地利用排列敏感性估计来减轻幻觉。整体框架如图4所示，主要包含以下三个阶段：

图4: 基于NQ训练集和LLaMA-3-8B-Instruct模型的层级可视化案例分析。图中每个点代表一种文档排列，其颜色对应模型的最终答案。

研究团队发现（图4），不同的文档排列会在模型的隐藏状态空间中形成不同的聚类，每个聚类代表一种潜在的推理模式。

提取状态：对给定查询和检索文档集，枚举所有排列组合，提取模型最后一层生成回答前的最后一个 token 的隐藏状态，表示模型在不同文档排列下最终推理状态的分布
谱聚类：应用谱聚类算法对所有文档排列的隐藏状态进行聚类，以自适应确定聚类数量
代表性解码：从每个聚类中选择最接近中心的隐藏状态进行解码，得到代表性回答，将计算量从降至

2.2 偏好数据构建

基于聚类和代表性解码得到的代表性回答后，构建训练数据：

FC（完全正确）：所有排列下回答均正确，排除训练。
PC（部分正确）：存在正确和错误回答，选择最高频正确回答作为，错误回答作为。
FU（完全错误且不可答）：检索文档无答案，将设为 “I don’t know”，鼓励模型拒答。
FA（完全错误但可答）：检索文档有答案但模型全部预测错误，为标准答案，为错误回答。

2.3 基于DPO的一致性对齐

通过直接偏好优化（DPO）最大化生成的概率，同时最小化生成的概率，使模型在不同文档排列下保持推理一致性，并优先输出语义一致且事实正确的答案。

三、实验结果

研究团队在 NaturalQuestions (NQ)、TriviaQA 和 HotpotQA 三个基准数据集上进行了广泛实验，使用了 LLaMA3-8B-Instruct 和 Qwen3-8B 作为基座模型，并在 DPR 和 Contriever 两种检索器进行测试。

准确性提升：相比 Vanilla RAG 和其他鲁棒性方法，Stable-RAG 在 SubEM 和 F1 指标上均有明显提升。

复杂推理能力：在需要多跳推理的 HotpotQA 数据集上，Stable-RAG 依然表现出色，证明其能稳定中间推理过程。

模型泛化性：Stable-RAG 在不同的基座模型上均表现出稳健的性能，证明了其不依赖于特定模型的泛化能力。

3.2 消融分析

表2: 不同组件的消融分析

表3: 与标准DPO的对比实验

消融实验（表2）表明，移除任意组件均导致性能下降，验证了各模块的必要性:

PC组件的核心作用：移除部分正确（PC）信号会导致各数据集性能显著下滑，这表明PC信号对于稳定模型的推理过程至关重要。
FU组件的拒答能力：移除完全错误且不可答（FU）组件会急剧降低模型的拒答率，验证了其在处理无答案或幻觉场景下的关键作用。
整体平衡：Stable-RAG在提升性能的同时，实现了最佳的拒答率平衡。

此外，团队将Stable-RAG与标准DPO进行了对比（表3）。在基座模型和优化策略相同的前提下，引入排列一致性约束的Stable-RAG在多个数据集和检索器上均表现更优，证实了该机制在提升RAG系统鲁棒性方面的核心价值。

为了全面评估Stable-RAG的实际应用潜力，团队进行了多维度的泛化性测试，结果令人印象深刻：

跨数据集泛化（图5左）：即使在一个数据集上训练，模型也能直接迁移到其他领域的数据集上，并保持性能优势，展现出强大的跨任务、跨领域迁移能力。
跨检索器迁移（图5中）：在DPR检索器上训练的模型，应用到Contriever检索器时依然表现稳健，证明其不依赖于特定的检索方法，具有极强的适应性。
跨Top-K鲁棒性（图5右）：在Top-5设置下训练的模型，能够无缝泛化到Top-10或Top-20等不同检索数量场景，始终保持显著优于基线的性能。

3.4 训练后模型内部行为分析

图6: Stable-RAG训练后模型内部行为对比图

隐藏状态聚类分析显示，Stable-RAG显著减少了高敏感性样本的聚类数量，有效稳定了核心推理表示。低敏感性样本的聚类轻微增加，主要源于DPO带来的答案表达多样性（如从“1913”细化为“1913年4月”），而非不稳定性。该方法在稳定高敏感样本推理路径的同时，保留了非敏感样本的表达丰富性，实现了鲁棒性与多样性的平衡。

3.5 训练后模型外部行为分析

表4: Stable-RAG训练后外部鲁棒性对比

表5: Stable-RAG训练后在原始文档顺序和随机打乱文档顺序下性能对比

为了验证Stable-RAG在真实场景下的鲁棒性，团队进行了严格的外部行为测试：

如图4所示，改变黄金文档在上下文中的位置，发现该方法在所有位置上的位置敏感性比率（PSR）均显著低于基线模型。这意味着即使关键证据出现在列表末尾或不理想的位置，模型依然能精准捕捉并正确作答，极大降低了对外部排列的依赖。
如图5所示，在原始顺序与随机打乱顺序的对比测试中，Stable-RAG在两种条件下均取得了最高的SubEM分数。这一结果有力证明了模型已彻底摆脱对特定文档顺序的依赖，能始终保持答案的高度一致与稳定。

四、结论

本文揭示了 RAG 系统中一个关键但被忽视的漏洞：检索文档的顺序会显著影响 LLM 的推理轨迹，导致幻觉。作者通过层间隐藏状态分析，证实了这种不稳定性主要源于模型的中高层。基于此，提出的 Stable-RAG 方法通过聚类排列后的隐藏状态来识别主导推理模式，并利用 DPO 对齐这些模式，有效减少了排列诱导的不确定性。实验证明，该方法在准确性、推理稳定性及泛化能力上均取得了显著提升。

Illustration generated by AI.

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线700+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

yimingzhang@thejiangmen.com

或添加工作人员微信（aceyiming）投稿，沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。