近日,美国华盛顿大学博士生邵如琳和合作团队打造出一个名为 Deep Research Tulu(DR Tulu)的深度研究小助手。使用一次 OpenAI 的 Deep Research 服务可能需要大约 1.8 美元,而 DR Tulu 使用一次的成本却不到 0.002 美元,这几乎是千倍的效率提升,这意味着未来个人或者小团队也能负担得起高质量、高可信度的 AI 研究服务。

DR Tulu 是一个拥有超级大脑且会熟练使用搜索引擎的科研助手。当你问它一个问题时,它不会只是简单地给你一列网页链接,而是会像一位真正的研究员那样,先去思考如何解决你的问题,然后主动查找各种资料比如网页和论文,最终为你整理出一份条理清晰、有根有据、带着详细出处说明的长篇答案。

(来源:资料图)
打开网易新闻 查看精彩图片
(来源:资料图)

DR Tulu 的表现大幅超越了所有其他公开可用的、专为搜索设计的 AI 模型,包括一些体型比它大的模型,证明了“小模型+好方法”也能做出大成就。

它的表现匹敌甚至超越了 OpenAI、Google 等公司的顶级商用深度研究系统,比如 OpenAI 的 Deep Research、谷歌的 Gemini Pro + Search。要知道,这些系统背后的技术往往不公开,而且使用成本非常高昂。

同时,DR Tulu 会坦诚地承认自己的知识边界,并主动查找和核实信息,从而尽可能减少回答中的"幻觉"。DR Tulu 还会在回答中提供详细的文献依据,方便用户交叉验证。目前业界尚无成熟的训练方法和数据来实现这一目标。DR Tulu 的这些能力源于一项新型训练方法及其配套框架,使 AI 与评估器在训练过程中协同进化、相互提升。

图 | 邵如琳(来源:邵如琳)
打开网易新闻 查看精彩图片
图 | 邵如琳(来源:邵如琳)

为了让 DR Tulu 成为一个优秀的研究员,研究人员并没有简单地把它丢进一堆问题里去死记硬背,而是像训练一位聪明的学徒以分为两步走:

第一步是名师出高徒,研究人员请来几位非常厉害的 AI 老师比如 GPT-5。这些老师本身就擅长查找资料和回答问题。研究人员让 AI 老师们在回答成千上万个问题的过程中,把它们如何思考、如何搜索、如何组织答案的每一步都记录下来。这些记录下来的标准答案步骤,成为了 DR Tulu 学习的第一手教材。通过模仿这些步骤,DR Tulu 学会了当一名研究员的基本功。

第二步是在实战中进化,光会模仿还不够,为了让它变得更强大,研究人员发明了一个名为带有进化评分标准的强化学习的方法。

传统方法就像老师拿着一份固定的评分表,用它来给学生的作业打分。学生可能会为了得高分,投机取巧地满足这些死板的条目,而忽略了真正的理解和创造。

研究人员发现,AI 在回答复杂问题的时候,好坏标准很难用几张固定的评分表说清楚。于是,他们让评分标准也跟着 AI 的学习一起进化。

具体来说,在训练中 DR Tulu 会试着回答很多问题,并能得到多个版本的答案。然后,另一个 AI 也就是评分官会仔细对比这些答案,动态地发现新的优点和缺点,并把它们作为新的评分标准。

这样,评分标准就会越来越贴近 AI 当前的真实水平,能更好地鉴别出高质量的回答。同时,这些标准总是基于最新搜索到的真实知识,而不是 AI 自己想象出来的内容。这样一来,DR Tulu 就能在不断的挑战和反馈中持续进步,学会搜索以及通过综合信息来给出可靠的答案。

(来源:资料图)
打开网易新闻 查看精彩图片
(来源:资料图)

研究人员在四个涵盖学术、医疗等领域的现有 Deep Research 基准上测试了 DR Tulu 的表现。结果显示,DR Tulu 达到了当前最优水平(SOTA),与市面上表现最佳的 OpenAI Deep Research 相当,而成本仅为其千分之一。

(来源:资料图)
打开网易新闻 查看精彩图片
(来源:资料图)

为了检验 DR Tulu 解决现实世界难题的能力,研究人员设计了一个新挑战:分析致病基因变异。这是一个非常专业的医学遗传学问题,需要从海量的科学论文和数据库中查找信息,判断一个特定的基因变异如何导致疾病,以及它是否适合采用某些前沿的治疗方法比如基因疗法。

为此,研究人员创建了包含 47 个此类问题的基因疾病问答数据集。DR Tulu 在这个它从未专门学习过的领域,表现出了较强的泛化能力即解决新问题的能力。它不仅能够找到相关的科学证据,还能将这些证据组织起来进行比较和综合,清晰地解释变异的致病机理。

虽然在最终答案上的准确性上略逊于使用最强商用大模型的系统,但是在证据支持方面 DR Tulu 做得较为出色。对于专业用户比如医学用户来说,这比一个看似正确但无法验证的简单答案更有价值,因为他们可以依据 DR Tulu 提供的详细引文去追溯和核实。

另据悉,研究人员针对 DR Tulu 进行了完全开放:训练代码、数据、模型参数等目前已经全部公开。

参考资料:

代码链接:https://github.com/rlresearch/dr-tulu

数据及模型链接:https://huggingface.co/collections/rl-research/dr-tulu

https://arxiv.org/abs/2511.19399

运营/排版:何晨龙