大家好,我是 Ai 学习的老章

经常在外冲浪,看到很多优秀的技术文章,独享不如分享

我会使用 DeepSeek-R1+ 科技类翻译大师 prompt 翻译出来,大家一起学习

如有翻译偏差,请大家指教。

原文:# Will Long-Context LLMs Make RAG Obsolete? By:Avi Chawla[1]

长上下文 LLM 会让 RAG 过时吗?

思考一下:

  • GPT-3.5-turbo 的上下文窗口为 4,096 个 token。

  • 后来,GPT-4 将其提升至 8,192 个 token

  • Claude 2 达到了 100,000 个 token。

  • Llama 3.1 → 128,000 个 token。

  • Gemini → 1M+ 个 token。

我们在扩展 LLM 的上下文窗口方面取得了巨大进展。

这引发了一个明显的问题,即 RAG 的相关性,研究人员对于长上下文 LLM 是否会使 RAG 过时仍存在分歧。

今天,让我们来探讨这场辩论,比较 RAG 和长上下文 LLM,同时分析学术研究。

什么是长上下文 LLM 和 RAG?

虽然 LLM 可以总结整个文档并在段落之间执行多跳推理,但 RAG 在处理大规模、高成本效益的检索任务方面表现出色。

基于学术研究的比较

论文一) 长上下文语言模型能否取代检索、RAG、SQL 等?[2] 长上下文语言模型能否取代检索、RAG、SQL 等?") 长上下文语言模型能否取代检索、RAG、SQL 等?**")

LOFT 基准评估需要数百万 token 的检索和推理任务。

虽然 Gemini 1.5 Pro 在多跳数据集(例如 HotpotQA、MusiQue)上优于 RAG 管道,但对于更大的语料库(1M token),RAG 在可扩展性方面仍保持优势。

论文二) RAG 与长上下文:检验前沿 LLM 在环境审查中的应用[3]

NEPAQuAD1.0 基准评估 RAG 和长上下文 LLM 在环境影响报告方面的表现。

结果表明,RAG 驱动的模型在准确性方面优于长上下文 LLM,尤其是在特定领域的任务中。

论文三) 全面研究与混合方法[4] 全面研究与混合方法)

本文对 RAG 和长上下文 LLM 进行了基准测试,并强调了它们的优势。SELF-ROUTE 是一种结合了两者的混合方法,可在保持有竞争力的性能的同时降低成本。

token 百分比和性能之间的权衡凸显了 RAG 在较小检索规模下的效率。

论文四) ChatQA 2:连接开源和专有 LLM [5]

ChatQA 2:连接开源和专有 LLM") ChatQA 2:连接开源和专有 LLM**")

基于 Llama3 的 ChatQA 2 评估了长上下文解决方案。

长上下文 LLM 的性能略低于 RAG,同时还需要更多的 token 上下文。

以下是一些关键见解:

  1. 成本效益:使用长上下文 LLM 处理每个请求 200K-1M 的 token 可能耗费高达 20 美元,这使得 RAG 成为许多应用中更经济实惠的选择。

  2. 特定领域知识:RAG 在需要精确、精选检索的细分领域表现更优。

  3. 互补集成:大多数 RAG 管道因检索效果不佳而失败,而这又是由于分块(chunking)不佳造成的。将 RAG 与长上下文 LLM 相结合可以提高检索和处理效率,并有可能消除对分块或块级召回的需求。

CAG vs. RAG

最近发布的一种名为 CAG(缓存增强生成)的机制最近很流行。

其核心思想是用 LLM 扩展上下文中的预加载知识取代实时文档检索。这种方法通过避免检索错误和延迟来确保更快、更准确、更一致的生成。

主要优势:

  • 低延迟:所有数据都已预加载,因此无需等待检索。

  • 更少错误:预计算的值避免了排序或文档选择错误。

  • 更简单的架构:没有单独的检索器——只需加载缓存即可。

  • 更快的推理:一旦缓存,响应速度极快。

  • 更高的准确性:模型预先处理统一、完整的上下文。

但它也有两个主要限制:

  • 对动态数据不灵活

  • 受 LLM 上下文长度的限制。

长上下文 LLM 提供了灵活性,但在成本和可扩展性方面面临限制。与此同时,RAG 对于大规模检索任务仍然是不可或缺的。

一种集成了 RAG 和长上下文 LLM 的混合方法将重新定义信息检索领域,充分利用两种系统的优势。

  • 检索将有助于降低仅使用长上下文 LLM 会产生的成本。

  • 一个合适的上下文窗口仍然允许 LLM 更有效地对检索到的块进行推理,从而减少碎片化和幻觉。

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!

参考资料

# Will Long-Context LLMs Make RAG Obsolete? By:Avi Chawla: https://blog.dailydoseofds.com/p/will-long-context-llms-make-rag-obsolete

论文一) 长上下文语言模型能否取代检索、RAG、SQL 等?: https://arxiv.org/pdf/2406.13121

论文二) RAG 与长上下文:检验前沿 LLM 在环境审查中的应用: https://arxiv.org/pdf/2407.07321

论文三) 全面研究与混合方法: https://arxiv.org/pdf/2407.16833

[5]

论文四) ChatQA 2:连接开源和专有 LLM: https://arxiv.org/pdf/2407.14482