本文主要作者包括:TAMU 的 Zhuofeng Li、Yu Zhang,UCSD 的 Haoxiang Zhang,University of Waterloo 的 Dongfu Jiang、Cong Wei、Ping Nie、Wenhu Chen、Jimmy Lin, Stanford 的 Pan Lu、Yejin Choi、James Zou, UIUC 的 Ming Zhong、Jiawei Han、以及 UW、Verdent AI、Lambda 等机构的合作者。
当大模型从「回答问题」走向「自己搜索、验证、综合证据」,检索接口正在变成 Agentic Search 的关键瓶颈。过去,一个搜索系统通常先把文档切块、建索引,再根据 query 返回 top-k 结果;智能体只能在这批候选片段上继续推理。这个流程高效、成熟;问题是,复杂搜索任务并不总是依靠语义最相近的片段就能解决;答案可能藏在多个弱线索的交叉处。一旦这些证据在 top-k 阶段被过滤掉,后面的推理模型再强也很难把它们凭空找回来。
来自 Texas A&M University、University of Waterloo、UC San Diego、Stanford University 等机构的研究团队提出了一种新的搜索范式:Direct Corpus Interaction(DCI),直接语料交互。它不依赖 embedding 模型,不构建向量索引,也不调用传统 retriever,而是让智能体直接使用 grep、文件读取、shell 命令、轻量脚本等工具,在原始语料中多轮搜索、定位、验证和修正假设。
实验显示,在深度研究、多跳问答、信息检索等任务上,DCI-Agent 不仅摆脱了传统语义检索器,还在多个指标上超过了很多检索智能体 baseline。尤其在深度研究的 BrowseComp-Plus 基准数据集上,在使用 Claude Sonnet 4.6 时,如果用 DCI 替代 Qwen3-Embedding-8B 检索工具,准确率从 69.0% 提升到 80.0%,成本从 1440 美元降到 1016 美元。
图 1:BrowseComp-Plus 上的性能 - 成本图。论文比较了 Qwen3-Embedding-8B 与 DCI-Agent 两种 agentic search 接口。后者在准确率和成本之间取得了更优平衡。
- arXiv:https://arxiv.org/abs/2605.05242
- 代码:https://github.com/DCI-Agent/DCI-Agent-Lite
- Demo:https://huggingface.co/spaces/DCI-Agent/demo
Agentic Search 的检索接口,为什么需要重新思考?
Agentic Search 和传统搜索最大的差别在于:它不是「一次 query 对应一次 top-k 查找」。一个检索智能体会不断拆解问题、提出中间假设、寻找实体线索、打开文档、检查局部上下文,再根据观察到的证据改写下一轮搜索。
因此,真正的瓶颈往往不在模型会不会总结,而在模型能不能看到足够关键、足够细粒度的证据。检索漏了关键证据,后续推理很容易变成在不完整材料上的自洽推断。
传统检索器大致可以分成几类。
稀疏检索以倒排索引、BM25 为代表,快、稳、可解释,擅长专有名词、编号日期和精确字符串,但很难理解同义表达。
稠密检索把 query 和文档块编码成向量索引,再用相似度召回,能处理模糊问题,却会把复杂文档压成固定维度向量。
重排方法会在粗排之后再用 cross-encoder 或大模型精排,质量更高,但范式仍然没有变:语料先被索引系统压缩,智能体只能看到选出来的一部分信息。到了 Agentic Search 时代,top-k 的问题被进一步放大。智能体虽然具备规划、查询改写、阅读文档和迭代推理的能力,但如果它每次只能透过检索接口返回的小窗口观察语料,就很难像研究者一样反复检索、交叉过滤和定位证据。
论文把这类困难拆成三种典型场景:精确词法约束,例如答案依赖某个日期、编号、缩写;稀疏线索组合,例如地点、年份、组织、事件必须同时成立;局部上下文验证,例如找到相关文档还不够,还要定位到文档内部的某句话、某个表格或某个脚注。BrowseComp-Plus 这类基准数据集正是在考察这种能力:智能体需要发现中间实体、组合弱线索、执行精确约束,并在观察局部证据后修正搜索计划。
DCI-Agent:让智能体直接和语料交互
既然当下的智能体已经能规划和使用工具,为什么一定要先用 embedding 把语料压缩成向量,再让模型只看 top-k?DCI 的思路很直接:
智能体不调用传统的检索接口,也不依赖向量索引,而是直接通过命令行工具访问原始语料。它可以用 grep 或 rg(ripgrep)做精确匹配和正则搜索,用 find 或 glob 发现文件,用文件读取工具查看局部上下文,也可以写轻量脚本统计、过滤和组合线索。
DCI 的观察结果不再是固定格式的文档排序列表,而是工具输出:匹配片段、文件路径、计数、上下文、元数据等。
图 2:两种 agentic search 接口对比。左侧是传统方法:语料先被索引,智能体利用 BM25、ColBERT 等检索工具,再基于返回的 top-k 结果推理。右侧是 DCI:不经过索引、embedding,智能体直接用 grep、glob、bash、轻量脚本等工具访问原始语料,从而获得更细粒度的模式匹配和证据定位能力。
这其实更接近人类研究者查资料的方式。我们不会永远只输入一个 query,然后仅仅阅读搜索引擎显示的前几条结果片段;我们会打开文件,Ctrl+F 找关键词,沿着实体名继续搜,用多个线索交叉过滤,看到局部上下文后再改写问题。
DCI 把这种行为交给了智能体。例如,智能体可以执行类似这样的多轮搜索:先用 find 找到可能相关的文档目录;再用 grep "Nobel" 找出所有包含特定实体的文件;接着用 grep "Nobel" file | grep "physics" 强制两个弱线索同时出现;然后读取命中位置前后几十行,检查上下文是否真的支持假设;最后根据新发现的人名、年份、机构继续下一轮搜索。这种模式不是一次性 “召回 top-k”,而是在语料中不断探索、定位、验证、收敛。
DCI-Agent 的具体实现
论文实现了两个 DCI-Agent 版本,用来验证直接语料交互本身是否有效。
第一个是DCI-Agent-Lite。它是一个基于 Pi 的轻量级命令行 (CLI) 智能体,只使用 bash 和 read 等基础工具,并配合简单的上下文管理。它不构建离线索引,不使用任何稀疏、稠密、重排检索工具。这个版本主要用于证明:即便没有复杂工程,仅靠直接语料交互接口,也能带来性能提升。
第二个是DCI-Agent-CC。它基于 Claude Code,具备更好的提示、工具编排和上下文处理能力,但仍然不使用任何传统意义上的检索工具。论文将它视为 DCI 的强实现,用来测试这一范式在更强命令行智能体上的性能上限。
图 3:长程 DCI 的运行时上下文管理。由于反复 grep、读取文件和展开上下文会产生大量文本,DCI-Agent-Lite 引入了裁剪(truncation)、压缩(compaction)、总结(summarization)三种机制,在保留搜索轨迹结构的同时缓解上下文压力。
上下文管理是 DCI 能跑长程搜索的关键。论文没有把所有文件直接塞进上下文,而是让智能体边搜边读,并用三种机制控制信息量:
- 裁剪:针对单次工具调用,超过阈值的工具回显会被截断,并附上系统提示,避免一次搜索结果淹没后续推理。
- 压缩:针对多轮历史,保留早期轮次的思考过程和所用的命令行,但把对应的命令行返回结果替换成占位符,只留下搜索轨迹的骨架。
- 总结:当上下文接近预算上限时,触发独立的总结智能体,把历史重写成结构化的研究笔记,保留关键线索、工具调用、已收集证据和当前任务焦点。
不用 embedding,效果反而更好
在深度研究的 BrowseComp-Plus 基准数据集上,在使用 Claude Sonnet 4.6 时,如果用 DCI 替代 Qwen3-Embedding-8B 检索工具,准确率从 69.0% 提升到 80.0%,同时成本降低 29.4%。
在多跳问答的 NQ、TriviaQA、Bamboogle、HotpotQA、2WikiMultiHopQA、MuSiQue 基准数据集上,DCI-Agent-CC 达到 83.0% 平均准确率,相比最强的检索智能体 baseline ASearcher-Local-14B,提升了 30.7%。
在信息检索的 BRIGHT、BEIR 基准数据集上,DCI-Agent-CC 达到 68.5 的平均 NDCG@10,比最强的传统检索 baseline ReasonRank-32B 高出了 21.5%。
图 4:多跳问答与信息检索基准数据集上的实验结果。DCI-Agent 在各个任务中都表现出优势,说明它并不只是某个数据集上特有的技巧,而可能代表了一种新的检索范式。
DCI 的提升来自哪里?
论文的机制分析给出了一个很有意思的答案。对模型在 BrowseComp-Plus 上生成的轨迹进行分析可以发现,DCI-Agent-Lite 的平均相关文档覆盖率反而低于使用 Qwen3-Embedding-8B 的检索智能体,但它的定位准确率显著更高。也就是说,DCI 并不是靠「更广泛地找回所有相关文档」取胜,而是靠「一旦碰到有用文档,就能更细粒度地在文档内部定位、验证和扩展线索」。
传统检索方法给智能体的是文档级或片段级的候选,而 DCI 给智能体的是更细的操作粒度:文件名、行号、匹配片段、局部上下文、管道组合、正则约束、计数统计。智能体不只是拿到一段相似文本,而是可以继续在语料中做实验。论文将此称为检索接口分辨率。这也是 DCI 最有启发性的地方:检索质量不只是模型问题,也不只是 embedding 问题,而是接口设计问题。当模型能够像研究者一样提出假设、测试模式、阅读上下文和改写查询时,过度压缩的相似度索引可能会成为瓶颈。
图 5:BrowseComp-Plus 上模型的轨迹分析。DCI-Agent-Lite 的平均相关文档覆盖率并不高于传统检索智能体,但它的定位准确率显著更高,说明 DCI 的优势主要来自更细粒度的局部定位和证据验证。
语料变大后会怎样?
论文保留了一个很重要的观察:DCI 不是万能解!当语料规模扩大时,直接语料交互会面临搜索广度、工具调用次数、延迟和成本的上升。这很好理解:DCI 擅长高分辨率局部搜索,但在超大规模开放语料里,找到第一个有用锚点本身就可能很贵。语料越大,智能体越需要在更多文件和更多候选线索中探索。
因此,DCI 的边界也很清楚:它并不一定适合所有超大规模、开放式、简单查询密集的检索场景;它更适合本地语料、异构文件、快速变化的工作区、代码仓库、科研资料、企业内部文档,以及需要多轮探索和严格证据验证的 Agentic Search。这也意味着,未来更现实的方向未必是 DCI 取代所有传统检索模型。更可能的形态是:粗粒度召回用传统检索模型,高分辨率验证用 DCI。也就是说,传统检索模块可以先把智能体带到可能相关的区域,而 DCI 负责在局部语料中完成精确定位、线索组合和证据验证。
图 6:在 BrowseComp-Plus 上,随着文档规模从 100K 扩展到 200K、400K,DCI-Agent 的搜索成本和延迟上升,准确率下降,说明直接语料交互需要和语料规模、任务复杂度一起权衡。
这篇论文真正改变了什么?
过去我们优化检索系统,常常围绕这些问题打转:换哪个 embedding 模型?chunk 多大?top-k 取多少?reranker 怎么选?query rewrite 怎么做?但 DCI-Agent 提醒我们,还要问一个更底层的问题:智能体到底应该以什么粒度访问外部世界?如果检索接口只能返回 top-k 片段,智能体看到的世界就是被压缩过的世界。它无法知道被过滤掉的证据里有什么,也很难像人类一样对原始材料反复搜索、交叉验证、局部定位。而 DCI 把语料变成一个可操作环境。智能体不是在等待检索器喂结果,而是在主动操作语料。这使得搜索从一个相似度排序问题,转变为一个多轮交互问题。
这或许是下一代 Agentic Search 和深度科研系统的重要方向:不是让检索工具替智能体决定看什么,而是设计更高分辨率的语料接口,让智能体自己学会如何找、怎么看、如何验证。
热门跟贴