通义实验室提出WebWalker：对RAG的二维升级，解锁复杂信息检索新技能|webwalker|搜索引擎|通义实验室

在信息爆炸的时代，互联网就像一座庞大的迷宫，藏着无数宝藏。但传统搜索引擎往往只能触及表面，对于复杂、多层级的信息检索显得力不从心。比如，你想知道某个学术会议的详细议程、嘉宾介绍，还得自己手动点开一个个网页点击深挖，费时费力。

通义实验室RAG团队提出WebWalker帮你解决这一问题！

论文标题： WebWalker: Benchmarking LLMs in Web Traversal 论文链接： https://arxiv.org/pdf/2501.07572 代码链接： https://github.com/Alibaba-NLP/WebWalker 项目主页： https://alibaba-nlp.github.io/WebWalker/

如gif所示，给定ACL2025的网页地址和问题：industry track的截止日期和开会地址。

WebWalker通过一次又一次的Click点击依次找到对应的信息，对网站进行充分的探索和挖掘。

一、背景

大模型的“知识局限”与检索瓶颈

大型语言模型（LLMs）在自然语言处理任务中大放异彩，但它们的“知识”在训练后就固定了。虽然通过检索增强生成（RAG）能从网上获取最新信息，传统搜索引擎的横向搜索方式，很难深入挖掘网站内部深层内容，导致大模型在处理复杂信息时“心有余而力不足”。传统搜索引擎如谷歌、必应等，它们的搜索方式，我们定义为对问题水平方向的搜索，难以深入到网站内部，挖掘那些深埋在网页之下的深层内容，对于隐藏在网页深层的有价值信息无能为力。无法像人类一样通过点击、输入等操作，逐步深入探索网页，获取丰富的细节。

二、解决思路

2.1 WebWalkerQA基准与WebWalker框架

研究者首先定义了Web Traversal任务，即给定一个与问题相关的初始网站，系统地遍历网页以揭露隐藏在其中的信息对问题进行回答。同时，WebWalkerQA应运而生，专门设计来评估大模型处理复杂、多步骤网页交互中嵌入查询能力的基准测试。其聚焦于文本推理能力，采用问答格式来评估大模型在网页场景中的问题解决能力，并且将动作限制为“Click点击”，以更精准地评估智能体的导航和信息寻求能力，这种范式更加贴合实际应用场景。同时，提出了一个基于Multi-Agent框架搭建了WebWalker框架，来进行网页的游走，获取需要的信息。

WebWalkerQA

WebWalkerQA通过两阶段漏斗式标注策略构建数据，先用GPT-4o进行初步标注，再由众包标注者进行质量控制和筛选。最终获得高质量的680个问答对，覆盖1373个网页，其中涉及到的领域有教育、会议、组织和游戏，贴近现实真实场景，并且分为多源和单源问答两种类型，模拟人类不同网页探索行为。同时，团队了开源了14k条silver data，包含了详细的页面点击的trajectory，以供后续研究者研究使用。

WebWalker

WebWalker框架由Explorer Agent和Critic Agent组成。Explorer Agent基于遵循思考-行动-观察范式，负责在网页中点击按钮、跳转页面；Critic Agent则负责记忆，维护一个Memory来保存对问题回答有帮助的信息和判断当前Memory中的信息能否对问题进行回答。

这种分工协作，让大模型能更高效地管理记忆，应对长文本和复杂逻辑。WebWalker让大模型在网页导航任务中能够更加高效地处理长文本信息，深入网页挖掘有价值的内容。

三、实验结果

论文分别在两种Setting下测试了WebWalkerQA的性能。第一种是Agent在Web Traversal任务下的性能，即输入给定的网页和问题，让Agent在网页内游走，获取信息进行回答。分别在两种最主流的Single-Agent框架ReAct和Reflexion以及我们提出的WebWalker上进行了测试。测试指标分别是问答的Accuracy和正确回答的情况下Agent执行点击的次数Action Count。

3.1 在Agent上的性能

从上图可以看出，数据集深度越深，考察内容越多，需要挖掘的信息越难找到，性能越低，这与论文构造WebWalkerQA想要考察的内容是一致的。

相比于ReAct和Reflexion框架，引入Multi-Agent的WebWalker框架对于长上下文理解的网页探索任务很有作用。

总体来说，WebWalkerQA对现有Agent来说是仍有挑战，即使是性能最强的基于GPT-4o的WebWalker，其表现也未达理想状态，仅仅只有40，凸显了该基准的难度。

3.2 详细分析

左图是基于不同基座LLM在不同Agent正确率和执行次数的分布；右图是预测分布，我们对错误类型进行了细致的划分，包括超过给定的最大执行次数K，拒答或定位错误（没有找到正确的页面就进行了回答）以及推理错误（这里指找到了正确的页面但是仍回答错误）。

综合来看，在ReAct框架下，参数相对较小的模型由于缺乏深入挖掘信息的能力，无论是否找到了相关信息，在进行几次操作迭代后便开始进行回答判断，常常表现出“摆烂”或者不耐烦的特性。通过引入记忆机制来管理长上下文，或者随着模型参数的增强这种现象有所缓解，说明这种现象源于长上下文中噪声信息的干扰以及模型自身能力的局限性。

3.3 在RAG系统上的性能

另一种Setting是直接端到端测试RAG系统下QA的性能，我们分别测试了在Close Book和一些开源和商用RAG系统上的性能，Close Book再WebWalkerQA上结果很差，因为我们收集页面信息具有高度的时效性。同样地，WebWalkerQA需要搜索引擎搜到比较深的页面内容，或者需要拆解Query进行搜索，这给RAG系统带来了挑战，最好的结果也是40左右。

四、二维RAG的探索

值得注意的是，webwalker中的memory对于回答query是非常重要的。如果rag链路中的搜索引擎可以当作对query进行横向搜索，webwalker是对页面的纵向深度探索，这是完全可以互补的。

因此我们把webwalker中的memory拼接到rag链路上，这种横向和纵向整合表现出色，在所有类别和难度的数据集上效果均有提升，证明了垂直探索页面对于提升RAG性能的潜力。这是对RAG二维探索的首次尝试！

此外，我们对webwalker 的挖掘点击次数进行scale up，看是否能得到更好的、更多的memory信息，随着挖掘点击次数的增大，不仅在webwalker上有较大提升，把memory加入到rag系统之后，性能也随之提升。这给rag系统进行test-time的拓展提供了新的角度。

4.1 突出Insight

网页导航寻找信息仍比较困难：在需要规划和推理的任务中，网页导航任务仍需进行进一步的研究和探索。
结合RAG有效：RAG与WebWalker的结合，在信息检索问答任务中展现出强大效果。这种协同作用不仅提升了信息检索的效率，还为处理复杂任务提供了强大的支持。Agentic 的二维RAG会很有帮助。
垂直探索有潜力：页面的垂直探索为RAG系统test-time的扩展提供了新思路。突破迭代搜索的范式，对页面垂直探索。

五、应用场景

WebWalker既可以作为独立的网页信息检索助手，或无缝集成到RAG系统中，拓展其应用范围，让它们能够处理更加复杂、多步骤的信息检索任务。

六、技术总结

WebWalkerQA和WebWalker的出现，为大模型在复杂、多步骤信息检索任务中的网页遍历能力评估提供了新标准和工具。它们强调了网页信息获取任务中深度、垂直探索的重要性，是可能一直Agentic RAG的新方向。

七、局限

数据规模：目前WebWalkerQA包含680个高质量问答对，规模有限，还有拓展空间。
多模态拓展：目前仅基于HTML-DOM解析，未来可结合视觉模态如截图，提供更直观的交互体验。
Agent微调：WebWalker目前仅靠提示驱动，后续可通过精细调优，让大模型更好地掌握网页浏览技巧。
Momory与rag 结合：目前是给定了webwalker页面进行了挖掘，如果想与rag链路进行更好的结合，可以对query进行改写到官网定位，再进行挖掘，把memory和正常检索到的知识一起作为检索增强的知识，这样结合更自然。

llustration From IconScout By IconScout Store

-The End-

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（