近日,美国华盛顿大学博士生邵如琳和合作团队打造出一个名为 Deep Research Tulu(DR Tulu)的深度研究小助手。使用一次 OpenAI 的 Deep Research 服务可能需要大约 1.8 美元,而 DR Tulu 使用一次的成本却不到 0.002 美元,这几乎是千倍的效率提升,这意味着未来个人或者小团队也能负担得起高质量、高可信度的 AI 研究服务。
DR Tulu 是一个拥有超级大脑且会熟练使用搜索引擎的科研助手。当你问它一个问题时,它不会只是简单地给你一列网页链接,而是会像一位真正的研究员那样,先去思考如何解决你的问题,然后主动查找各种资料比如网页和论文,最终为你整理出一份条理清晰、有根有据、带着详细出处说明的长篇答案。
DR Tulu 的表现大幅超越了所有其他公开可用的、专为搜索设计的 AI 模型,包括一些体型比它大的模型,证明了“小模型+好方法”也能做出大成就。
它的表现匹敌甚至超越了 OpenAI、Google 等公司的顶级商用深度研究系统,比如 OpenAI 的 Deep Research、谷歌的 Gemini Pro + Search。要知道,这些系统背后的技术往往不公开,而且使用成本非常高昂。
同时,DR Tulu 会坦诚地承认自己的知识边界,并主动查找和核实信息,从而尽可能减少回答中的"幻觉"。DR Tulu 还会在回答中提供详细的文献依据,方便用户交叉验证。目前业界尚无成熟的训练方法和数据来实现这一目标。DR Tulu 的这些能力源于一项新型训练方法及其配套框架,使 AI 与评估器在训练过程中协同进化、相互提升。
为了让 DR Tulu 成为一个优秀的研究员,研究人员并没有简单地把它丢进一堆问题里去死记硬背,而是像训练一位聪明的学徒以分为两步走:
第一步是名师出高徒,研究人员请来几位非常厉害的 AI 老师比如 GPT-5。这些老师本身就擅长查找资料和回答问题。研究人员让 AI 老师们在回答成千上万个问题的过程中,把它们如何思考、如何搜索、如何组织答案的每一步都记录下来。这些记录下来的标准答案步骤,成为了 DR Tulu 学习的第一手教材。通过模仿这些步骤,DR Tulu 学会了当一名研究员的基本功。
第二步是在实战中进化,光会模仿还不够,为了让它变得更强大,研究人员发明了一个名为带有进化评分标准的强化学习的方法。
传统方法就像老师拿着一份固定的评分表,用它来给学生的作业打分。学生可能会为了得高分,投机取巧地满足这些死板的条目,而忽略了真正的理解和创造。
研究人员发现,AI 在回答复杂问题的时候,好坏标准很难用几张固定的评分表说清楚。于是,他们让评分标准也跟着 AI 的学习一起进化。
具体来说,在训练中 DR Tulu 会试着回答很多问题,并能得到多个版本的答案。然后,另一个 AI 也就是评分官会仔细对比这些答案,动态地发现新的优点和缺点,并把它们作为新的评分标准。
这样,评分标准就会越来越贴近 AI 当前的真实水平,能更好地鉴别出高质量的回答。同时,这些标准总是基于最新搜索到的真实知识,而不是 AI 自己想象出来的内容。这样一来,DR Tulu 就能在不断的挑战和反馈中持续进步,学会搜索以及通过综合信息来给出可靠的答案。
研究人员在四个涵盖学术、医疗等领域的现有 Deep Research 基准上测试了 DR Tulu 的表现。结果显示,DR Tulu 达到了当前最优水平(SOTA),与市面上表现最佳的 OpenAI Deep Research 相当,而成本仅为其千分之一。
为了检验 DR Tulu 解决现实世界难题的能力,研究人员设计了一个新挑战:分析致病基因变异。这是一个非常专业的医学遗传学问题,需要从海量的科学论文和数据库中查找信息,判断一个特定的基因变异如何导致疾病,以及它是否适合采用某些前沿的治疗方法比如基因疗法。
为此,研究人员创建了包含 47 个此类问题的基因疾病问答数据集。DR Tulu 在这个它从未专门学习过的领域,表现出了较强的泛化能力即解决新问题的能力。它不仅能够找到相关的科学证据,还能将这些证据组织起来进行比较和综合,清晰地解释变异的致病机理。
虽然在最终答案上的准确性上略逊于使用最强商用大模型的系统,但是在证据支持方面 DR Tulu 做得较为出色。对于专业用户比如医学用户来说,这比一个看似正确但无法验证的简单答案更有价值,因为他们可以依据 DR Tulu 提供的详细引文去追溯和核实。
另据悉,研究人员针对 DR Tulu 进行了完全开放:训练代码、数据、模型参数等目前已经全部公开。
参考资料:
代码链接:https://github.com/rlresearch/dr-tulu
数据及模型链接:https://huggingface.co/collections/rl-research/dr-tulu
https://arxiv.org/abs/2511.19399
运营/排版:何晨龙
热门跟贴