训练奖励太稀疏？港中文联合美团给Agent加上「过程分」|agent|推理|数学|新论文|港中文|知名企业|美团|训练奖励|轨迹|过程分

在很多大模型和 Agent 的训练里，最常见的一种做法就是只看结果：最后答案对了就给奖励，错了就当 0 分。

在单轮问答里，这样「只看结果」还勉强能用；可一旦换成 Agent 这种要多轮对话、搜索、刷网页、写代码、读文件的长链任务，就变成用一个 bit 去概括一整条复杂轨迹。

结果就是：差一点就做成功的过程，和从第一步就跑偏的过程，在奖励眼里没区别；训练看不出哪种失败更有价值，手写规则或人工细粒度打分又很难覆盖开放环境、多模态这些复杂情况。

港中文和美团在这篇工作里，盯上的就是这个核心矛盾：

Agent 需要长程、细粒度的反馈，但我们手里大多只有终局对错这样的粗粒度奖励。

论文标题：Exploring Reasoning Reward Model for Agents
论文链接：https://arxiv.org/pdf/2601.22154
项目地址：https://github.com/kxfan2002/Reagent

为了解决这个矛盾，作者先造了一个「懂推理、看得懂工具调用」的评审器，给 Agent 的整条轨迹打「过程分」和「评语」，再把这份反馈喂回训练。

这也是 Reagent 框架的核心出发点：让 Agent 不再只看结果，而是也要为自己的思考和工具调用过程负责。

给 Agent 的思路打个分

这篇工作最重要的一步，就是不再只看 Agent 最后有没有把题做对，而是开始认真给整个思考过程打分。

研究团队先搭了一套专门面向智能体的「思考评分类」数据：里面收集了各种真实的 Agent 轨迹，有推理顺畅但执行失误的，有一路乱猜却刚好蒙对的，也有工具用得乱七八糟的。每一条轨迹，都被标注成一份「阅卷意见」，既指出思路哪里站得住脚、哪里明显跑偏，也给出一个 0～1 之间的整体分数。

基于这套数据，他们训练了一个专门的「思考评分模型」——Agent-RRM。它不会只看最后一行答案，而是把整个过程从头看到尾，然后输出三样东西：一段内部分析、一小段给 Agent 看的批评意见，再加上一个综合分数。

举个简单的例子：

两条轨迹最后都答对了，但一条逻辑跳跃严重、工具乱用，只是误打误撞到达正确答案，那 Agent-RRM 可能只给个 0.3；
另一条从一开始就分析清楚、什么时候该搜、什么时候该点进网页、怎么利用信息都说得明明白白，这种思路就可能拿到 0.9。

就像老师改卷，不是只看「A/B/C/D」选了啥，还会看你中间的演算过程，给「过程分」。这一招的目标很明确：

教会 Agent「怎么想」「怎么用工具」，而不是教它「怎么猜对答案」。

统一文本批评和奖励信号：Reagent 框架

有了会打「思维分」的 Agent-RRM，还要想清楚怎么把这些反馈喂回给 Agent。这就是 Reagent 框架要解决的事情：把「文字点评」和「分数奖励」统一起来，用在智能体训练里。

作者设计了三种用法，可以理解成三档「加持程度」：

① 只加点评，不改模型（Reagent-C）

最轻的一种：不动 Agent 参数，只在推理时多一步「听老师讲评」。

大致流程就是：Agent 先做一遍题，Agent-RRM 看完给一小段 critique，指出关键问题，然后让 Agent 在这段点评的基础上重做一遍。这相当于给任何现成的大模型，外挂一个「老师帮你看一眼再交卷」的过程。

② 给奖励加一条「过程分」（Reagent-R）

再往上走一步，就是把 Agent-RRM 打出来的分数，当成额外奖励加进来。

以前的训练只看「做对 / 做错」那一分，现在变成「结果对错 + 过程好坏」两条线一起算：哪怕最后没完全做对，只要思路清晰、工具用得合理，也不会被当作垃圾样本一票否决。这对长链、多工具的任务特别重要，可以缓解那种「一不小心就全是 0 分」的奖励稀疏问题。

③ 把「第一次想」和「批评后再想」一起训（Reagent-U）

最强的一档，是这篇文章重点强调的 Reagent-U。它一口气把两种反馈都用上：

一方面，让 Agent 学会第一次就少犯低级错误；
另一方面，也教它「听完批评以后，怎样更聪明地改答案」。

训练时，同一个问题会有「首答」和「听完点评后的再答」两条轨迹，它们都拿到「结果奖励 + 过程分数」，一起放进同一个训练循环里优化。这样做的好处是：模型不会只在某一种模式上刷分，而是整体上把「想清楚」「用好工具」「能根据反馈修正自己」这几件事，一起学进去。

实际部署时，Reagent-U 又不用再依赖外部的 Agent-RRM 提点评，直接就能像普通 Agent 一样用 —— 那些「老师改卷时说过的话」，已经被揉进模型参数里了。

这套设计带来了什么提升？

在实验里，作者主要看了三件事：文字点评本身有没有用、过程分数能不能帮 RL 学得更好、统一之后是不是有效提升。

先看最轻量的那种：只加一段文本点评、不改模型参数。结果表明，在不少数学和搜索任务上，「听完一段 Agent-RRM 的批评再答一次」，确实能稳定把正确率拉上去。

再把过程分数加进训练里之后，Agent 不是只会去迎合最后那一个对错信号，而是更愿意走那些「虽然这次没完全做成，但整体思路是对的」的方向。

最后，当文本批评和奖励分数在 Reagent-U 里统一起来时，提升就更直观了：

在 GAIA 这个通用 Agent 基准的文本子集上，基于 8B 模型的 Reagent-U，可以把平均成绩拉到 43.7%，基本追上甚至部分超过了一些更大参数量的开源 Agent。在 WebWalkerQA、HLE、xbench 等其他复杂任务上，也普遍比「只看终局奖励」的版本更稳，更不容易被「瞎蒙对」或者「瞎忙活」带偏。

作者还测试了模型在 GAIA 全集上的表现，面对多模态的通用 agent 任务，Reagent-U 也依然能打。