打开网易新闻 查看精彩图片

本文第一作者单子康是北京大学二年级在读博士生,研究方向为大语言模型与强化学习,曾于 ICML 2025 以共同一作发表 Spotlight 论文,本工作为微软亚洲研究院实习期间完成。本文最后一作赵立是微软亚洲研究院高级研究员,现任微软亚洲研究院机器学习组负责人。

强化学习(RL)已经成为大语言模型(LLM)后训练阶段最重要的技术之一。早期伴随着 ChatGPT 的出圈,价值对齐 RL 受到广泛关注;DeepSeek-R1 以大规模可验证 RL 激发了模型的推理能力,引领了推理 RL 的热潮;如今的智能体(Agent)训练更是离不开 RL。

可以说,大模型时代的能力演进,很大程度上是 RL 范式不断深化应用的过程。

然而,RL 有一个经典难题始终悬而未决:信用分配(credit assignment)。模型生成了一段长长的回答,最终收到一个奖励信号。但这段回答里,哪些步骤真正做出了贡献?哪些是冗余的,甚至引入了错误?信用分配不精准,训练信号就只能保持稀疏,模型的学习效率也就因此受限。

打开网易新闻 查看精彩图片

经典 RL 算法 PPO(Proximal Policy Optimization)的解法是训练一个价值模型(Critic),估计序列中每个 token 的价值(Value),借此将信用精确分配到每一步。然而在 LLM 的实践中,随着生成序列越来越长、任务越来越复杂,Critic 的训练逐渐变得不稳定,效果也难以保证。

于是,研究者转向更简单的无 Value 方法例如 GRPO,利用奖励来构造每个轨迹的优势,广播到每一步上,相当于将优化过程简化为一个多臂老虎机问题。尽管训练流程简洁了许多,这种简化的代价是彻底放弃了细粒度的信用分配。随着推理链越来越长、Agent 任务越来越复杂,这一代价也变得越来越难以接受。

这不禁让人重新审视一个根本问题:价值模型真的不堪一用吗?还是我们一直没能正确地实现它?

微软亚洲研究院联合北京大学的研究者,给出了答案。

打开网易新闻 查看精彩图片

  • 论文标题:Bringing Value Models Back: Generative Critics for Value Modeling in LLM Reinforcement Learning
  • 论文链接:https://arxiv.org/abs/2604.10701

判别式 Critic 的根本局限

传统 Critic 是「判别式」的:输入一个状态,输出一个标量作为价值估计。这一设计看似自然,却暗藏着一个深层的架构矛盾。

研究者将两个已知的结论结合,得出了一个颇具启发性的推论。其一,LLM 生成过程所对应的马尔可夫链的价值函数的精确建模,在计算复杂度上属于 P-complete。其二,Transformer 单次前向传播的表达能力上界已被证明为 TC⁰,一个远弱于 P-complete 的复杂度类。

将这两个结论结合来看,判别式 Critic 在 LLM 任务上的持续失败或许并非偶然:价值建模本质上依赖大量顺序推理,难以通过简单的并行前向传播实现。判别式 Critic 是在用一个表达能力受限的架构,去拟合一个理论上更复杂的函数。更关键的是,这一错配无法通过规模化来弥补:更多的参数、更多的数据或更多的计算,对于表达能力层面的鸿沟并无根本帮助。

打开网易新闻 查看精彩图片

研究者通过实验印证了这一推断。固定一个目标价值函数,让判别式 Critic 去拟合,其误差与简单的平均奖励基线相比并无显著优势。更重要的是,将模型规模从 0.6B 扩展到 14B,拟合误差几乎没有改善。与此同时,判别式 Critic 在不同随机种子下表现出极大的波动,说明其表现高度依赖初始化,而非稳健地收敛。

不可扩展加上不稳定,共同指向同一个结论:判别式 Critic 的问题并非调参不当,而是架构层面的固有不足。

生成式 Critic:让价值估计变得可推理

既然判别式架构存在本质局限,一个自然的问题是:换成生成式会怎样?

生成式 Critic 的核心思路是:不直接输出一个标量,而是先使用思维链推理,再给出价值的估计。这一思路与生成式奖励模型有相通之处,后者已在多项工作中被验证具有更强的鲁棒性和泛化能力。从理论上看,显式的推理链可以有效提升模型的表达能力,从而绕过 TC⁰的表达能力上界约束,为价值建模开辟新的空间。

但价值建模比奖励建模面临更深层的挑战:价值是与当前策略深度绑定的。同一个中间状态,对于能力较弱的策略而言可能价值很高,而对于能力更强的策略则已不值一提。奖励模型无需感知策略,但价值模型必须「知道自己在评估谁」。这一挑战在一个具体对比中体现得格外清晰:生成式奖励模型的训练通常以蒸馏强大的通用模型为起点,但对于价值建模而言,并不存在天然的「价值先知」可供蒸馏。

研究者发现,即便是能力极强的通用大模型例如 GPT-5,直接被用作价值模型时,其拟合误差甚至远不如判别式 Critic。原因正在于它对被评估的策略一无所知,无从判断同一状态对当前策略意味着什么。

为此,研究者引入了上下文条件注入(In-Context Conditioning)机制:在每次 Critic 推理时,将当前策略的模型规模与实时更新的滑动平均成功率一并注入上下文,使 Critic 能够感知并基于当前策略的能力水平开展分析。消融实验表明,这一简单机制能够有效降低价值估计误差。

打开网易新闻 查看精彩图片

在训练流程上,由于缺乏可供直接蒸馏的高质量标注,研究者设计了包含 SFT 和 RL 的两阶段价值预训练方案。SFT 阶段作为热身,帮助模型建立以估计价值为目标的基本推理模式;RL 阶段则通过真实奖励信号对初始偏差进行矫正,将推理能力真正落地到准确的价值估计上。经过这两阶段预训练的生成式 Critic,可以作为可靠组件进入与策略的联合 RL 训练。

实验与分析

研究者将使用生成式 critic 的 PPO 命名为 GenAC,在数学推理任务上展开了实验,并通过 6 个评测标准进行深度评测。为了比较价值函数的影响,研究者比较了使用判别式 Critic 的 VC-PPO,以及两种主流的无 Value 方法 GRPO 和 RLOO。

打开网易新闻 查看精彩图片

GenAC 以 51.90% 的平均准确率领先所有基准方法。从训练动态来看,价值建模本身就能带来显著优势:VC-PPO 与 GenAC 在训练早期均表现出更高的样本效率,模型能力迅速提升,而无 Value 方法由于细粒度信用分配的缺失,早期学习相对缓慢。然而,VC-PPO 的领先优势随着训练推进而逐渐收窄,最终收敛表现与无 Value 方法相差无几;GenAC 则截然不同,不仅始终保持领先,与其他方法的差距还在训练后期持续扩大。

是否进行价值建模影响的是早期的学习速率,而 Critic 的质量则决定训练能走多远。

打开网易新闻 查看精彩图片

那么,生成式与判别式 Critic 之间的差异,究竟通过什么机制传导到最终的 RL 效果上?研究者从拟合误差之外的角度进一步展开分析。

打开网易新闻 查看精彩图片

首先是相对排名实验:针对相同状态的一组候选片段,Critic 需要识别出哪个候选的价值最高。随着候选数量增加,生成式 Critic 的排名准确率轻微下降,而判别式 Critic 则明显退化。这意味着在区分相近候选的细微优劣时,生成式 Critic 能给出更可靠的相判断,而优势估计的精度正是依赖于此。

其次是分布外泛化实验:要求 Critic 对分布外数据源的价值函数进行估计。生成式 Critic 的误差相比判别式基线大幅下降,且分布偏移越大,两者的差距越悬殊。这说明生成式 Critic 具有更强的泛化能力,当策略通过探索进入新状态时,它依然能够给出可靠的信用分配,在关键的探索数据上保持有效的学习。

最后是定性分析:Critic 需要通过价值估计反映思维链中出现的错误。在这个例子中,判别式 Critic 在错误步骤前后的价值估计没有明显区别,而生成式 Critic 明确指出了错误,并基于此给出了更低的价值估计。这种细粒度的错误定位能力,正是精准信用分配在单步层面的直接体现。

打开网易新闻 查看精彩图片

结语

价值模型的失败,从来不是价值建模这一思路本身有问题,而是判别式架构的先天局限,使一个具有潜力的想法难以落地。生成式 Critic 通过引入显式推理、策略感知和稳健的两阶段训练,重新展示了细粒度信用分配在 LLM 强化学习中的可行性。随着推理模型与 Agent 任务的持续推进,信用分配的质量只会变得越来越关键。这件事值得被认真对待,而 GenAC 展示了一条可行的路径。