长上下文 LLM 会让 RAG 过时吗？

Ai学习的老章

2025-07-07 11:21 ·北京 ·优质互联网领域创作者

大家好，我是 Ai 学习的老章

经常在外冲浪，看到很多优秀的技术文章，独享不如分享

我会使用 DeepSeek-R1+ 科技类翻译大师 prompt 翻译出来，大家一起学习

如有翻译偏差，请大家指教。

原文：# Will Long-Context LLMs Make RAG Obsolete? By：Avi Chawla[1]

长上下文 LLM 会让 RAG 过时吗？

思考一下：

GPT-3.5-turbo 的上下文窗口为 4,096 个 token。
后来，GPT-4 将其提升至 8,192 个 token。
Claude 2 达到了 100,000 个 token。
Llama 3.1 → 128,000 个 token。
Gemini → 1M+ 个 token。

我们在扩展 LLM 的上下文窗口方面取得了巨大进展。

这引发了一个明显的问题，即 RAG 的相关性，研究人员对于长上下文 LLM 是否会使 RAG 过时仍存在分歧。

今天，让我们来探讨这场辩论，比较 RAG 和长上下文 LLM，同时分析学术研究。

什么是长上下文 LLM 和 RAG？

虽然 LLM 可以总结整个文档并在段落之间执行多跳推理，但 RAG 在处理大规模、高成本效益的检索任务方面表现出色。

基于学术研究的比较

论文一) 长上下文语言模型能否取代检索、RAG、SQL 等？[2] 长上下文语言模型能否取代检索、RAG、SQL 等？") 长上下文语言模型能否取代检索、RAG、SQL 等？**")

LOFT 基准评估需要数百万 token 的检索和推理任务。

虽然 Gemini 1.5 Pro 在多跳数据集（例如 HotpotQA、MusiQue）上优于 RAG 管道，但对于更大的语料库（1M token），RAG 在可扩展性方面仍保持优势。

论文二) RAG 与长上下文：检验前沿 LLM 在环境审查中的应用[3]

NEPAQuAD1.0 基准评估 RAG 和长上下文 LLM 在环境影响报告方面的表现。

结果表明，RAG 驱动的模型在准确性方面优于长上下文 LLM，尤其是在特定领域的任务中。

论文三) 全面研究与混合方法[4] 全面研究与混合方法)

本文对 RAG 和长上下文 LLM 进行了基准测试，并强调了它们的优势。SELF-ROUTE 是一种结合了两者的混合方法，可在保持有竞争力的性能的同时降低成本。

token 百分比和性能之间的权衡凸显了 RAG 在较小检索规模下的效率。

论文四) ChatQA 2：连接开源和专有 LLM [5]

ChatQA 2：连接开源和专有 LLM") ChatQA 2：连接开源和专有 LLM**")

基于 Llama3 的 ChatQA 2 评估了长上下文解决方案。

长上下文 LLM 的性能略低于 RAG，同时还需要更多的 token 上下文。

以下是一些关键见解：

成本效益：使用长上下文 LLM 处理每个请求 200K-1M 的 token 可能耗费高达 20 美元，这使得 RAG 成为许多应用中更经济实惠的选择。
特定领域知识：RAG 在需要精确、精选检索的细分领域表现更优。
互补集成：大多数 RAG 管道因检索效果不佳而失败，而这又是由于分块（chunking）不佳造成的。将 RAG 与长上下文 LLM 相结合可以提高检索和处理效率，并有可能消除对分块或块级召回的需求。

CAG vs. RAG

最近发布的一种名为 CAG（缓存增强生成）的机制最近很流行。

其核心思想是用 LLM 扩展上下文中的预加载知识取代实时文档检索。这种方法通过避免检索错误和延迟来确保更快、更准确、更一致的生成。

主要优势：

低延迟：所有数据都已预加载，因此无需等待检索。
更少错误：预计算的值避免了排序或文档选择错误。
更简单的架构：没有单独的检索器——只需加载缓存即可。
更快的推理：一旦缓存，响应速度极快。
更高的准确性：模型预先处理统一、完整的上下文。

但它也有两个主要限制：

对动态数据不灵活
受 LLM 上下文长度的限制。

长上下文 LLM 提供了灵活性，但在成本和可扩展性方面面临限制。与此同时，RAG 对于大规模检索任务仍然是不可或缺的。

一种集成了 RAG 和长上下文 LLM 的混合方法将重新定义信息检索领域，充分利用两种系统的优势。

检索将有助于降低仅使用长上下文 LLM 会产生的成本。
一个合适的上下文窗口仍然允许 LLM 更有效地对检索到的块进行推理，从而减少碎片化和幻觉。

制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个，谢谢你看我的文章，我们下篇再见！

参考资料

# Will Long-Context LLMs Make RAG Obsolete? By：Avi Chawla: https://blog.dailydoseofds.com/p/will-long-context-llms-make-rag-obsolete

论文一) 长上下文语言模型能否取代检索、RAG、SQL 等？: https://arxiv.org/pdf/2406.13121

论文二) RAG 与长上下文：检验前沿 LLM 在环境审查中的应用: https://arxiv.org/pdf/2407.07321

论文三) 全面研究与混合方法: https://arxiv.org/pdf/2407.16833

[5]

论文四) ChatQA 2：连接开源和专有 LLM: https://arxiv.org/pdf/2407.14482

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴