不用向量数据库，Agent也能会搜索：给它一个grep就够了？|grep|top|上下文|向量数据库|显式标识|索引|语料|调用

本文主要作者包括：TAMU 的 Zhuofeng Li、Yu Zhang，UCSD 的 Haoxiang Zhang，University of Waterloo 的 Dongfu Jiang、Cong Wei、Ping Nie、Wenhu Chen、Jimmy Lin， Stanford 的 Pan Lu、Yejin Choi、James Zou， UIUC 的 Ming Zhong、Jiawei Han、以及 UW、Verdent AI、Lambda 等机构的合作者。

当大模型从「回答问题」走向「自己搜索、验证、综合证据」，检索接口正在变成 Agentic Search 的关键瓶颈。过去，一个搜索系统通常先把文档切块、建索引，再根据 query 返回 top-k 结果；智能体只能在这批候选片段上继续推理。这个流程高效、成熟；问题是，复杂搜索任务并不总是依靠语义最相近的片段就能解决；答案可能藏在多个弱线索的交叉处。一旦这些证据在 top-k 阶段被过滤掉，后面的推理模型再强也很难把它们凭空找回来。

来自 Texas A&M University、University of Waterloo、UC San Diego、Stanford University 等机构的研究团队提出了一种新的搜索范式：Direct Corpus Interaction(DCI)，直接语料交互。它不依赖 embedding 模型，不构建向量索引，也不调用传统 retriever，而是让智能体直接使用 grep、文件读取、shell 命令、轻量脚本等工具，在原始语料中多轮搜索、定位、验证和修正假设。

实验显示，在深度研究、多跳问答、信息检索等任务上，DCI-Agent 不仅摆脱了传统语义检索器，还在多个指标上超过了很多检索智能体 baseline。尤其在深度研究的 BrowseComp-Plus 基准数据集上，在使用 Claude Sonnet 4.6 时，如果用 DCI 替代 Qwen3-Embedding-8B 检索工具，准确率从 69.0% 提升到 80.0%，成本从 1440 美元降到 1016 美元。

图 1：BrowseComp-Plus 上的性能 - 成本图。论文比较了 Qwen3-Embedding-8B 与 DCI-Agent 两种 agentic search 接口。后者在准确率和成本之间取得了更优平衡。

arXiv：https://arxiv.org/abs/2605.05242
代码：https://github.com/DCI-Agent/DCI-Agent-Lite
Demo：https://huggingface.co/spaces/DCI-Agent/demo

Agentic Search 的检索接口，为什么需要重新思考？

Agentic Search 和传统搜索最大的差别在于：它不是「一次 query 对应一次 top-k 查找」。一个检索智能体会不断拆解问题、提出中间假设、寻找实体线索、打开文档、检查局部上下文，再根据观察到的证据改写下一轮搜索。

因此，真正的瓶颈往往不在模型会不会总结，而在模型能不能看到足够关键、足够细粒度的证据。检索漏了关键证据，后续推理很容易变成在不完整材料上的自洽推断。

传统检索器大致可以分成几类。

稀疏检索以倒排索引、BM25 为代表，快、稳、可解释，擅长专有名词、编号日期和精确字符串，但很难理解同义表达。

稠密检索把 query 和文档块编码成向量索引，再用相似度召回，能处理模糊问题，却会把复杂文档压成固定维度向量。

重排方法会在粗排之后再用 cross-encoder 或大模型精排，质量更高，但范式仍然没有变：语料先被索引系统压缩，智能体只能看到选出来的一部分信息。到了 Agentic Search 时代，top-k 的问题被进一步放大。智能体虽然具备规划、查询改写、阅读文档和迭代推理的能力，但如果它每次只能透过检索接口返回的小窗口观察语料，就很难像研究者一样反复检索、交叉过滤和定位证据。

论文把这类困难拆成三种典型场景：精确词法约束，例如答案依赖某个日期、编号、缩写；稀疏线索组合，例如地点、年份、组织、事件必须同时成立；局部上下文验证，例如找到相关文档还不够，还要定位到文档内部的某句话、某个表格或某个脚注。BrowseComp-Plus 这类基准数据集正是在考察这种能力：智能体需要发现中间实体、组合弱线索、执行精确约束，并在观察局部证据后修正搜索计划。

DCI-Agent：让智能体直接和语料交互

既然当下的智能体已经能规划和使用工具，为什么一定要先用 embedding 把语料压缩成向量，再让模型只看 top-k？DCI 的思路很直接：

智能体不调用传统的检索接口，也不依赖向量索引，而是直接通过命令行工具访问原始语料。它可以用 grep 或 rg（ripgrep）做精确匹配和正则搜索，用 find 或 glob 发现文件，用文件读取工具查看局部上下文，也可以写轻量脚本统计、过滤和组合线索。

DCI 的观察结果不再是固定格式的文档排序列表，而是工具输出：匹配片段、文件路径、计数、上下文、元数据等。

图 2：两种 agentic search 接口对比。左侧是传统方法：语料先被索引，智能体利用 BM25、ColBERT 等检索工具，再基于返回的 top-k 结果推理。右侧是 DCI：不经过索引、embedding，智能体直接用 grep、glob、bash、轻量脚本等工具访问原始语料，从而获得更细粒度的模式匹配和证据定位能力。

这其实更接近人类研究者查资料的方式。我们不会永远只输入一个 query，然后仅仅阅读搜索引擎显示的前几条结果片段；我们会打开文件，Ctrl+F 找关键词，沿着实体名继续搜，用多个线索交叉过滤，看到局部上下文后再改写问题。

DCI 把这种行为交给了智能体。例如，智能体可以执行类似这样的多轮搜索：先用 find 找到可能相关的文档目录；再用 grep "Nobel" 找出所有包含特定实体的文件；接着用 grep "Nobel" file | grep "physics" 强制两个弱线索同时出现；然后读取命中位置前后几十行，检查上下文是否真的支持假设；最后根据新发现的人名、年份、机构继续下一轮搜索。这种模式不是一次性 “召回 top-k”，而是在语料中不断探索、定位、验证、收敛。

DCI-Agent 的具体实现

论文实现了两个 DCI-Agent 版本，用来验证直接语料交互本身是否有效。

第一个是DCI-Agent-Lite。它是一个基于 Pi 的轻量级命令行 (CLI) 智能体，只使用 bash 和 read 等基础工具，并配合简单的上下文管理。它不构建离线索引，不使用任何稀疏、稠密、重排检索工具。这个版本主要用于证明：即便没有复杂工程，仅靠直接语料交互接口，也能带来性能提升。

第二个是DCI-Agent-CC。它基于 Claude Code，具备更好的提示、工具编排和上下文处理能力，但仍然不使用任何传统意义上的检索工具。论文将它视为 DCI 的强实现，用来测试这一范式在更强命令行智能体上的性能上限。

图 3：长程 DCI 的运行时上下文管理。由于反复 grep、读取文件和展开上下文会产生大量文本，DCI-Agent-Lite 引入了裁剪（truncation）、压缩（compaction）、总结（summarization）三种机制，在保留搜索轨迹结构的同时缓解上下文压力。

上下文管理是 DCI 能跑长程搜索的关键。论文没有把所有文件直接塞进上下文，而是让智能体边搜边读，并用三种机制控制信息量：

裁剪：针对单次工具调用，超过阈值的工具回显会被截断，并附上系统提示，避免一次搜索结果淹没后续推理。
压缩：针对多轮历史，保留早期轮次的思考过程和所用的命令行，但把对应的命令行返回结果替换成占位符，只留下搜索轨迹的骨架。
总结：当上下文接近预算上限时，触发独立的总结智能体，把历史重写成结构化的研究笔记，保留关键线索、工具调用、已收集证据和当前任务焦点。

不用 embedding，效果反而更好

在深度研究的 BrowseComp-Plus 基准数据集上，在使用 Claude Sonnet 4.6 时，如果用 DCI 替代 Qwen3-Embedding-8B 检索工具，准确率从 69.0% 提升到 80.0%，同时成本降低 29.4%。

在多跳问答的 NQ、TriviaQA、Bamboogle、HotpotQA、2WikiMultiHopQA、MuSiQue 基准数据集上，DCI-Agent-CC 达到 83.0% 平均准确率，相比最强的检索智能体 baseline ASearcher-Local-14B，提升了 30.7%。

在信息检索的 BRIGHT、BEIR 基准数据集上，DCI-Agent-CC 达到 68.5 的平均 NDCG@10，比最强的传统检索 baseline ReasonRank-32B 高出了 21.5%。

图 4：多跳问答与信息检索基准数据集上的实验结果。DCI-Agent 在各个任务中都表现出优势，说明它并不只是某个数据集上特有的技巧，而可能代表了一种新的检索范式。

DCI 的提升来自哪里？

论文的机制分析给出了一个很有意思的答案。对模型在 BrowseComp-Plus 上生成的轨迹进行分析可以发现，DCI-Agent-Lite 的平均相关文档覆盖率反而低于使用 Qwen3-Embedding-8B 的检索智能体，但它的定位准确率显著更高。也就是说，DCI 并不是靠「更广泛地找回所有相关文档」取胜，而是靠「一旦碰到有用文档，就能更细粒度地在文档内部定位、验证和扩展线索」。

传统检索方法给智能体的是文档级或片段级的候选，而 DCI 给智能体的是更细的操作粒度：文件名、行号、匹配片段、局部上下文、管道组合、正则约束、计数统计。智能体不只是拿到一段相似文本，而是可以继续在语料中做实验。论文将此称为检索接口分辨率。这也是 DCI 最有启发性的地方：检索质量不只是模型问题，也不只是 embedding 问题，而是接口设计问题。当模型能够像研究者一样提出假设、测试模式、阅读上下文和改写查询时，过度压缩的相似度索引可能会成为瓶颈。

图 5：BrowseComp-Plus 上模型的轨迹分析。DCI-Agent-Lite 的平均相关文档覆盖率并不高于传统检索智能体，但它的定位准确率显著更高，说明 DCI 的优势主要来自更细粒度的局部定位和证据验证。

语料变大后会怎样？

论文保留了一个很重要的观察：DCI 不是万能解！当语料规模扩大时，直接语料交互会面临搜索广度、工具调用次数、延迟和成本的上升。这很好理解：DCI 擅长高分辨率局部搜索，但在超大规模开放语料里，找到第一个有用锚点本身就可能很贵。语料越大，智能体越需要在更多文件和更多候选线索中探索。

因此，DCI 的边界也很清楚：它并不一定适合所有超大规模、开放式、简单查询密集的检索场景；它更适合本地语料、异构文件、快速变化的工作区、代码仓库、科研资料、企业内部文档，以及需要多轮探索和严格证据验证的 Agentic Search。这也意味着，未来更现实的方向未必是 DCI 取代所有传统检索模型。更可能的形态是：粗粒度召回用传统检索模型，高分辨率验证用 DCI。也就是说，传统检索模块可以先把智能体带到可能相关的区域，而 DCI 负责在局部语料中完成精确定位、线索组合和证据验证。

图 6：在 BrowseComp-Plus 上，随着文档规模从 100K 扩展到 200K、400K，DCI-Agent 的搜索成本和延迟上升，准确率下降，说明直接语料交互需要和语料规模、任务复杂度一起权衡。

这篇论文真正改变了什么？

过去我们优化检索系统，常常围绕这些问题打转：换哪个 embedding 模型？chunk 多大？top-k 取多少？reranker 怎么选？query rewrite 怎么做？但 DCI-Agent 提醒我们，还要问一个更底层的问题：智能体到底应该以什么粒度访问外部世界？如果检索接口只能返回 top-k 片段，智能体看到的世界就是被压缩过的世界。它无法知道被过滤掉的证据里有什么，也很难像人类一样对原始材料反复搜索、交叉验证、局部定位。而 DCI 把语料变成一个可操作环境。智能体不是在等待检索器喂结果，而是在主动操作语料。这使得搜索从一个相似度排序问题，转变为一个多轮交互问题。

这或许是下一代 Agentic Search 和深度科研系统的重要方向：不是让检索工具替智能体决定看什么，而是设计更高分辨率的语料接口，让智能体自己学会如何找、怎么看、如何验证。