RAG没有银弹！四级难度，最新综述覆盖数据集、解决方案，教你「LLM+外部数据」的正确使用姿势|上下文|使用姿势|奥运会|数据源|算法|银弹

新智元报道

编辑：LRS

【新智元导读】论文提出了一种RAG任务分类法，将用户查询分为四个级别，并讨论了将外部数据集成到LLMs中的三种主要方式。从简单的事实检索到复杂的推理任务，每个级别都有其独特的难点和解决方案，需要不同的技术和方法来优化性能。

受参数量和知识更新的限制，大模型在执行很多真实场景下的任务时，都需要连接外部数据源，检索增强生成（RAG）技术也逐渐获得业内的关注。

但并不是接入外部数据即可万事大吉，有很多用户查询非常难处理，从检索相关数据、准确解释用户意图，再到充分利用LLMs的推理能力都需要进行优化处理，才能得到一个相对满意的RAG系统来执行复杂任务，并不存在一种万能的解决方案。

在实践中，如果RAG效果不佳，通常是由于未能准确识别任务的核心问题，或者是因为该任务本身就需要混合多种技术才能解决，必须将复杂任务拆解开才能获得更好的表现。

最近，最新的RAG综述根据「所需的外部数据类型」和「任务的主要焦点」将用户查询分为四个级别：显式事实查询、隐式事实查询、可解释理由查询和隐含理由查询，并在文中对四个难度的问题进行定义，提供相关数据集，总结关键难点以及能有效解决该难点的技术。

论文链接：https://arxiv.org/abs/2409.14924

文中还讨论了将外部数据集成到LLMs中的三种主要形式：上下文、小模型和微调，分析各自的优势、局限性以及适合解决的问题类型。

级别1：显式事实查询（explicit fact queries）

例：2024年夏季奥运会将在何处举行？

Where will the 2024 Summer Olympics be held?

这类查询是最简单的形式，不需要额外的推理，主要考察模型定位和提取相关信息的能力，要求模型正确检索数据以提供准确的回复。

常见的问题形式包括：

1. 给定一系列学术论文：在论文X中使用了什么方法来解决Y问题？（What method was used in Paper X to solve problem Y?）

2. 给定一系列关于公司X的最新新闻和文章：公司X的人工智能战略是什么？（What’s the AI strategy of company X?）

RAG主要难点

1. 数据处理困难：外部数据通常是高度非结构化的，包含表格、图像、视频等多种模态，将数据进行分段（segmenting）或分块（chunking）处理时，仍然需要保持原始上下文和意义。

2. 数据检索困难：从大型非结构化数据集中检索相关数据段可能会耗费大量计算资源，并且容易出错，主要难点在于开发出高效准确的检索机制。

3. 评估困难：如果评估RAG系统的性能，特别是组件级别的性能，是一项复杂的任务，需要开发出能够准确评估数据检索和响应生成质量的指标。

由于RAG已经算是一个相对成熟的领域，目前已经有大量的文献和工具来应对上述难题，文中介绍了一些实用和有影响力的RAG增强功能，以及可能在RAG之外采用的替代技术解决方案。

级别二：隐式事实查询（implicit fact queries）

例：堪培拉所在的国家现在哪个党派占多数？

What is the majority party now in the country where Canberra is located?

解析：堪培拉位于澳大利亚，再检索澳大利亚的多数党。

查询仍然围绕事实性问题，但答案并没有明确地出现在任何某一个文本段落中，而是需要通过常识推理、结合多个事实来得出结论，所需的信息可能分散在多个段落中。

主要难点

1. 适应性检索量（Adaptive retrieval volumes）：不同的问题可能需要检索不同数量的上下文，具体检索量可能取决于问题和数据集，固定数量的检索可能会导致信息噪声或信息不足。

2. 推理与检索之间的协调（Coordination between reasoning and retrieval）：推理可以指导需要检索的内容，而从检索中获得的信息可以迭代地完善推理策略。

解决这些难点需要智能地整合和有选择性地利用外部数据，利用上大模型固有的推理能力，现有的解决思路包括迭代RAG、基于图/树的RAG以及带有SQL的RAG等。

级别三：可解释理由查询（interpretable rationale queries）

例：

1. 给定胸痛管理指南，如何诊断和治疗有胸痛和特定症状描述的患者？

How should a patient with chest pain and specific symptom descriptions be diagnosed and treated?

2. 给定客户服务工作流程，在现实生活场景中，如何回应用户的问题？

How to respond to a user’s question in a real-life scenario?

这类查询不仅要求模型掌握事实内容，还需要能够理解并应用与数据上下文密切相关的特定领域的理由，并且理由通常在外部资源中明确提供，且在一般大型语言模型的预训练阶段通常不存在或很少遇到。

例如，在制药领域，LLM必须解释FDA指南文件，以评估特定药物申请是否符合监管要求；在客户支持场景中，LLM必须导航预定义工作流程的复杂性，以有效处理用户查询；在医疗领域，模型需要遵循诊断手册，其中提供了权威和标准化的诊断标准，如管理急性胸痛患者的指南，通过有效遵循外部理由，可以开发出一个专门的LLM专家系统来管理胸痛。

上述过程涉及到理解程序步骤和决策树，指导支持智能体与客户的互动，确保回复不仅准确，而且符合公司的服务标准和协议。

研究人员根据所涉及理由的性质，将这些查询分为两类：基于可解释理由的查询和基于隐含理由的查询。

第一类查询通常更显式，辅助数据通常包括用于解决问题的思维过程的清晰解释，数据可以以多种形式进行组织：

1. 纯文本，包括专业或官方文件，如手册或指南，以及特定领域的手册或操作指南，阐述了在复杂场景中促进决策的思维过程。如FDA针对制药厂的指南或医生的药物指南提供了专家（如FDA官员或医生）如何处理特定案例的见解。

2. 结构化指导，包括更明确的推理关系或决策路径，可以表示为文本条件摩尔机或文本条件米利机。在计算理论中，摩尔机是一种有限状态机，其输出值仅由其当前状态决定，控制状态转换的条件通常以文本形式表达，与传统程序操作本地代码不同的是，大模型需要解释条件和转换理由。

主要难点

1. 提示优化成本，不同的查询需要量身定制的背景知识和决策标准，需要多样化的样例，如果是训练一个额外的模型为各种查询生成定制的提示，会显著增加计算开销。

2. 可解释性不足，提示对LLMs的影响是不透明的，限制了对LLMs内部参数的访问，使得确定各种提示对这些模型的影响变得复杂。这种缺乏透明度阻碍了我们一致理解和验证LLM对不同提示回复的可解释能力。

级别四：隐式理由查询（Hidden Rationale Queries）

例：

1. 经济形势将如何影响公司未来的发展？（给定一系列财务报告，需要经济和财务理由）

2. 如何使用数字5、5、5和1达到24点？（给定一系列24点游戏示例和相应的答案）