大家好,我是 Ai 学习的老章
经常在外冲浪,看到很多优秀的技术文章,独享不如分享
我会使用 DeepSeek-R1+ 科技类翻译大师 prompt 翻译出来,大家一起学习
如有翻译偏差,请大家指教。
原文:# Will Long-Context LLMs Make RAG Obsolete? By:Avi Chawla[1]
长上下文 LLM 会让 RAG 过时吗?
思考一下:
GPT-3.5-turbo 的上下文窗口为 4,096 个 token。
后来,GPT-4 将其提升至 8,192 个 token。
Claude 2 达到了 100,000 个 token。
Llama 3.1 → 128,000 个 token。
Gemini → 1M+ 个 token。
我们在扩展 LLM 的上下文窗口方面取得了巨大进展。
这引发了一个明显的问题,即 RAG 的相关性,研究人员对于长上下文 LLM 是否会使 RAG 过时仍存在分歧。
今天,让我们来探讨这场辩论,比较 RAG 和长上下文 LLM,同时分析学术研究。
什么是长上下文 LLM 和 RAG?
虽然 LLM 可以总结整个文档并在段落之间执行多跳推理,但 RAG 在处理大规模、高成本效益的检索任务方面表现出色。
基于学术研究的比较
论文一) 长上下文语言模型能否取代检索、RAG、SQL 等?[2] 长上下文语言模型能否取代检索、RAG、SQL 等?") 长上下文语言模型能否取代检索、RAG、SQL 等?**")
LOFT 基准评估需要数百万 token 的检索和推理任务。
虽然 Gemini 1.5 Pro 在多跳数据集(例如 HotpotQA、MusiQue)上优于 RAG 管道,但对于更大的语料库(1M token),RAG 在可扩展性方面仍保持优势。
论文二) RAG 与长上下文:检验前沿 LLM 在环境审查中的应用[3]
NEPAQuAD1.0 基准评估 RAG 和长上下文 LLM 在环境影响报告方面的表现。
结果表明,RAG 驱动的模型在准确性方面优于长上下文 LLM,尤其是在特定领域的任务中。
论文三) 全面研究与混合方法[4] 全面研究与混合方法)
本文对 RAG 和长上下文 LLM 进行了基准测试,并强调了它们的优势。SELF-ROUTE 是一种结合了两者的混合方法,可在保持有竞争力的性能的同时降低成本。
token 百分比和性能之间的权衡凸显了 RAG 在较小检索规模下的效率。
论文四) ChatQA 2:连接开源和专有 LLM [5]
ChatQA 2:连接开源和专有 LLM") ChatQA 2:连接开源和专有 LLM**")
基于 Llama3 的 ChatQA 2 评估了长上下文解决方案。
长上下文 LLM 的性能略低于 RAG,同时还需要更多的 token 上下文。
以下是一些关键见解:
成本效益:使用长上下文 LLM 处理每个请求 200K-1M 的 token 可能耗费高达 20 美元,这使得 RAG 成为许多应用中更经济实惠的选择。
特定领域知识:RAG 在需要精确、精选检索的细分领域表现更优。
互补集成:大多数 RAG 管道因检索效果不佳而失败,而这又是由于分块(chunking)不佳造成的。将 RAG 与长上下文 LLM 相结合可以提高检索和处理效率,并有可能消除对分块或块级召回的需求。
最近发布的一种名为 CAG(缓存增强生成)的机制最近很流行。
其核心思想是用 LLM 扩展上下文中的预加载知识取代实时文档检索。这种方法通过避免检索错误和延迟来确保更快、更准确、更一致的生成。
主要优势:
低延迟:所有数据都已预加载,因此无需等待检索。
更少错误:预计算的值避免了排序或文档选择错误。
更简单的架构:没有单独的检索器——只需加载缓存即可。
更快的推理:一旦缓存,响应速度极快。
更高的准确性:模型预先处理统一、完整的上下文。
但它也有两个主要限制:
对动态数据不灵活
受 LLM 上下文长度的限制。
长上下文 LLM 提供了灵活性,但在成本和可扩展性方面面临限制。与此同时,RAG 对于大规模检索任务仍然是不可或缺的。
一种集成了 RAG 和长上下文 LLM 的混合方法将重新定义信息检索领域,充分利用两种系统的优势。
检索将有助于降低仅使用长上下文 LLM 会产生的成本。
一个合适的上下文窗口仍然允许 LLM 更有效地对检索到的块进行推理,从而减少碎片化和幻觉。
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!
参考资料
# Will Long-Context LLMs Make RAG Obsolete? By:Avi Chawla: https://blog.dailydoseofds.com/p/will-long-context-llms-make-rag-obsolete
论文一) 长上下文语言模型能否取代检索、RAG、SQL 等?: https://arxiv.org/pdf/2406.13121
论文二) RAG 与长上下文:检验前沿 LLM 在环境审查中的应用: https://arxiv.org/pdf/2407.07321
论文三) 全面研究与混合方法: https://arxiv.org/pdf/2407.16833
[5]
论文四) ChatQA 2:连接开源和专有 LLM: https://arxiv.org/pdf/2407.14482
热门跟贴