作者 林易
编辑 重点君
原来,阿里一直搜索梦未断!
就在昨晚!阿里在Github等平台开源了ZeroSearch(零搜索)大模型搜索引擎。
简单说,这是一种不需要与真实搜索引擎交互,就可以激励大模型搜索能力的强化学习框架。
这种新方法,可以大幅降低训练人工智能系统搜索信息的成本和复杂性,从根本上消除了对昂贵的商业搜索引擎API的需求。
ZeroSearch允许大型语言模型(LLM)通过模拟方法开发高级搜索功能,而无需在训练过程中与真实的搜索引擎交互。可以为企业节省大量API成本,同时更好地控制AI系统学习检索信息的方式。
阿里研究人员在本周发表于arXiv的论文中写道:“强化学习[RL]训练需要频繁部署,可能涉及数十万个搜索请求,这会产生大量的API开销,并严重限制可扩展性。为了应对这些挑战,我们推出了ZeroSearch,这是一个强化学习框架,无需与真实搜索引擎交互即可激励LLM的搜索能力。”
如何训练AI在没有搜索引擎的情况下搜索?
ZeroSearch解决的问题意义重大。目前,开发能够自主搜索信息的AI Agent的公司面临两大挑战:一是训练过程中搜索引擎返回的文档质量难以预测,二是向谷歌等商业搜索引擎进行数十万次API调用的成本高得离谱。
阿里的方法始于一个轻量级的监督式微调过程,将大语言模型(LLM)转换为一个检索模块,该模块能够根据查询生成相关和不相关的文档。在强化学习训练过程中,该系统采用了研究人员所称的“基于课程的推出策略”,逐渐降低生成文档的质量。
研究人员解释说:“我们的核心洞察是,LLM在大规模预训练过程中获得了广泛的世界知识,能够根据搜索查询生成相关文档。真实搜索引擎和模拟LLM之间的主要区别在于返回内容的文本风格。”
以极低的成本超越百度和谷歌
在七个问答数据集的全面实验中,ZeroSearch的性能不仅匹敌,甚至经常超越使用真实搜索引擎训练的模型。值得注意的是,一个70亿参数的检索模块实现了与谷歌搜索相当的性能,而一个140亿参数的模块甚至超越了后者。
成本节省非常可观。根据研究人员的分析,通过SerpAPI使用Google搜索进行约64000个搜索查询的训练将花费约586.70美元,而在四台A100 GPU上使用14B参数模拟LLM的成本仅为70.80美元,节省了88%。
论文指出:“这证明了在强化学习设置中使用训练有素的LLM替代真实搜索引擎的可行性。”
对人工智能未来发展意味着什么?
这一突破是人工智能系统训练方式的重大转变。ZeroSearch表明,人工智能无需依赖搜索引擎等外部工具即可实现改进。
这对人工智能行业的影响可能非常巨大。到目前为止,训练高级人工智能系统通常需要调用由大型科技公司控制的服务,耗费高昂的API调用成本。ZeroSearch改变了这一现状,它允许人工智能模拟搜索,而不是使用实际的搜索引擎。
对于规模较小的人工智能公司和预算有限的初创公司来说,这种方法可以创造公平的竞争环境。API调用的高成本一直是开发复杂人工智能助手的主要障碍。通过将这些成本降低近90%,ZeroSearch让高级人工智能训练更容易获得。
除了节省成本之外,这项技术还能让开发者更好地控制训练过程。使用真实的搜索引擎时,返回文档的质量难以预测。而通过模拟搜索,开发者可以精确控制AI在训练过程中看到的信息。
这项技术适用于多个模型系列,包括Qwen-2.5和LLaMA-3.2,以及基础版本和指令调整版本。研究人员已在GitHub和Hugging Face上公开了他们的代码、数据集和预训练模型,以便其他研究人员和公司能够应用该方法。
最后,如果你对阿里这项技术感兴趣,可一键传送:
论文地址:https://arxiv.org/abs/2505.04588
开源地址:https://github.com/Alibaba-nlp/ZeroSearch
Huggingface:https://huggingface.co/collections/sunhaonlp/zerosearch-681b4ce012b9b6899832f4d0
热门跟贴