来源:市场资讯

(来源:机器之心)

打开网易新闻 查看精彩图片

代彦琪(个人主页:https://yanqidai.github.io/),现为人大高瓴四年级直博生、南洋理工大学访问学生,师从卢志武教授与张含望教授,主要研究方向为多模态大模型和强化学习。预计于 2027 年 6 月毕业,目前正积极寻求工业界发展机会。

大模型数学推理的强化学习中,一个看似简单、却长期没有被认真回答的问题是:模型在训练时,到底应该更重视哪些题目?

太容易的题,模型往往已经掌握,继续训练带来的收益有限;完全不会的题,在当前阶段又很难提供有效的正向学习信号。真正最值得投入训练预算的,往往是那些更难,但并非不可学的问题。

围绕这一点,中国人民大学高瓴人工智能学院联合阿里巴巴高德、厦门大学和大连理工大学的研究团队提出 MathForge:从算法和数据两端同时发力,让大模型在强化学习过程中更有效地攻克难题,从而显著提升数学推理能力。

打开网易新闻 查看精彩图片

  • 论文题目:Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

  • 论文地址:https://arxiv.org/abs/2601.20614

  • 代码仓库:https://github.com/AMAP-ML/MathForge

一、为什么现有方法还不够「重视难题」?

近年来,基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)的方法,已经成为提升大模型数学推理能力的重要路线。它不依赖额外训练奖励模型,而是直接通过规则检查答案是否正确,因此在数学这类“答案可验证”的任务上非常自然、也非常高效。

但这篇工作指出,现有方法对「难题」的忽视,实际上来自两个层面。

第一,是算法层面。

当前广泛使用的 GRPO,本质上是在同一道题生成的一组回答之间做相对比较,再决定更新方向和更新幅度。问题在于,这种机制并不会天然让模型更关注难题。相反,论文通过理论分析指出:GRPO 的更新强度会更偏向中等难度题,而对过难和过易题的更新反而会被压低。

这意味着在同一个训练批次中,那些真正能暴露模型短板、但又不是完全学不会的「难而可学」问题,未必能得到足够大的训练信号。模型最该花精力去学的题,不一定真的被重点学到了。

第二,是数据层面。

已有的数学推理数据增强方法,常见做法要么是从头生成新的题目和答案,要么只是对原题做简单重述。前者往往很难保证答案质量,尤其是高难度竞赛数学题;后者虽然提升了表述多样性,却没有真正提高了题目的内在难度。

二、MathForge:从算法

和数据两端同时「锻造」模型

为了解决上面这两个问题,论文提出了一个双轮驱动框架 MathForge。它由两个核心部分组成:

  • DGPO:Difficulty-Aware Group Policy Optimization,难度感知的组策略优化

  • MQR:Multi-Aspect Question Reformulation,多方面问题改写

一个解决「怎么学」,一个解决「学什么」。

1. DGPO:让「更难但可学」的题真正被学到

DGPO 的核心思想,并不是一句简单的「给难题更高权重」,而是一个非常清晰的两步过程:先平衡,再重加权。

第一步,是 DGAE(Difficulty-balanced Group Advantage Estimation,难度平衡的组优势估计)。

作者发现,GRPO 中对优势的归一化方式会带来对不同难度问题的更新幅度的不平衡。具体来讲,GRPO 的优化目标如下:

打开网易新闻 查看精彩图片

在不考虑梯度剪裁的情况下,GRPO 的策略梯度如下:

打开网易新闻 查看精彩图片

把 GRPO 的梯度拆开来看,会发现优势项的符号决定更新方向,而优势项的绝对值决定更新幅度。所以,一道题对参数更新的整体影响,可以用组内所有回答优势绝对值之和来近似理解。

作者在下方的定理 1 中证明:在使用二值正确性奖励的情况下,GRPO 对单道题的总更新幅度与

打开网易新闻 查看精彩图片

代表这道题的回答正确率。

代表轨迹采样次数,

成正比,其中

打开网易新闻 查看精彩图片

这个函数在=0.5时最大,而当接近 0 或 1 时都会下降。直观上,这意味着中等难度的问题更主要地推动参数更新,而特别容易和比较困难的问题,更新都会被压小。

其中最值得注意的是那些困难但可答对的题目:它们正确率不高,但并不是完全不会做。作者认为这类题其实最有训练价值,因为它们恰好暴露了模型尚未掌握、但已经接近掌握的能力边界。

为此,DGAE 用平均绝对偏差(MAD)替代了原先的标准差归一化,其组相关优势的计算方式如下:

打开网易新闻 查看精彩图片

作者在下方的定理 2 中证明:在不依赖必须使用二值正确性奖励的情况下,DGAE 对每道题的总更新幅度为相等的定值 。这让不同题目的更新幅度变得更加平衡,不再天然偏向中等难度题。

打开网易新闻 查看精彩图片

第二步,是 DQW(Difficulty-aware Question-level Weighting,难度感知的问题级别加权)。

在更新幅度被拉平之后,DQW 再根据题目当前的平均正确率来估计难度,对那些更难、但仍有有效学习信号的问题赋予更高权重。具体的权重计算方式如下:

打开网易新闻 查看精彩图片

2. MQR:把问题改得更难,但答案不变

如果说 DGPO 回答的是「怎么学」,那么 MQR 回答的就是「学什么」。

MQR 不满足于对原题做浅层重述,而是系统性地从三个方向提升题目难度,同时严格保持原始标准答案不变。核心指令如下:

打开网易新闻 查看精彩图片

第一种是 Background。

给原题加入看似相关、但实际上会带来干扰的信息背景,让模型必须在更复杂的叙述里抓住真正关键的数学条件。

第二种是 Term。

给题目中的核心概念引入新的抽象术语,让模型不能只靠熟悉的表面表达来作答,而必须真正理解定义和结构。

第三种是 Sub-Problem。

把原题中的一个关键数值条件改造成一个需要先求解的小问题,再返回主问题。这会显著增加推理链条长度,也更考验模型的多步推理和跨领域推理能力。

构造数据时有一个严格的限制条件是:所有改写后的题目都必须保持原始 gold answer 不变。

这意味着,MQR 不是在重新造一套不稳定的新题,而是在尽量不破坏数学本质和标准答案的前提下,系统性地把同一道题改得更难、更有挑战性。这样既保证了训练信号的可靠性,也降低了额外数据构造的成本和难度。

三、实验结果:更难的训练,

带来更强、更稳、更泛化的推理

实验结果非常清楚地说明了一点:更难的问题,确实更值得学。

如表 1 所示,在主实验设置下,无论是只使用 DGPO,还是只使用 MQR,都能明显超过强基线 GRPO;而当两者结合成完整的 MathForge 后,效果进一步达到最好,相比 GRPO 带来了超过 4.5 个点的平均提升。更重要的是,这个优势并不是只在单一对比下成立,而是在与多种已有强化学习优化方法比较时,依然保持了最强的整体表现。

打开网易新闻 查看精彩图片

进一步地,如表 2 所示,MathForge 在不同大小、不同类型的基础模型上都保持了稳定收益。从较小模型到 7B 级模型,它都能带来大约 3 到 4.5 个点的平均提升。这说明它并不是依赖某一个特定 backbone 的「技巧性调参」,而是一种更普适的训练原则。

打开网易新闻 查看精彩图片

在算法分析上,如表 3 所示,DGPO 的两个关键设计也都被验证是必要的:DGAE 负责先把不同难度问题的更新强度拉平,DQW 再把训练重点推向更难但可学的问题,两者是互补关系,而不是可有可无的附加项。与此同时,如表 4 所示,DGPO 还可以与多种现有强化学习方法直接结合,并继续带来额外收益,说明它并不是一个封闭替代方案,而更像是一种可插拔的通用增强机制。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

更值得注意的是,这种「按难度组织学习」的思路并不只适用于文本数学任务。如表 5 所示,论文还把 DGPO 应用到了多模态数学推理场景中,结果同样比 GRPO 有超过 2 个点的提升。这说明 MathForge 所强调的,并不是某个特定数据集上的偶然技巧,而可能是一种更广泛适用的后训练思路:不同问题不应该被一视同仁,训练预算应该优先留给更难、但仍有学习价值的问题。

打开网易新闻 查看精彩图片

从数据角度看,MQR 的效果也并不只是「样本变多了」。如表 6 和表 7 所示,论文专门控制了总训练量后发现,使用 MQR 改写后的数据依然优于只用原始数据的训练版本;三种改写策略单独使用时都有效,组合起来效果最好。这意味着 MQR 真正带来的,是更有价值的训练样本,而不是简单的样本堆叠。更细致的难度分析还表明,这三类改写后的问题整体都比原题更难,其中把关键条件改造成子问题的方式最能拉高推理难度。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

在训练动态方面,如图 1 所示,对于 DGPO 来说,模型不仅更准,而且输出还更简短,说明它学到的不是更冗长的推理,而是更高效的推理路径。

打开网易新闻 查看精彩图片

如图 2 所示,对于 MQR 来说,模型在训练阶段的准确率变得更低,但最终测试表现却反而更好,呈现出非常直观的「train harder, test better」现象。也就是说,更难的数据确实在逼着模型形成更强的泛化能力,而不是只在容易题上反复刷分。

打开网易新闻 查看精彩图片

四、总结

MathForge 真正回答了一个非常关键的问题:在强化学习里,哪些题最值得学?

答案不是最简单的题,也不是完全不会的题,而是那些更难、但仍然可学的问题。DGPO 负责让模型在训练中真正重视这类问题,MQR 负责稳定地产生这类问题。两者结合,最终把「更难的训练」转化成了「更强的推理」。

从这个意义上说,MathForge 的价值不只是把数学推理结果再往前推了一步,更重要的是它提供了一种非常清晰的训练观:不是所有样本都应该被平等对待,真正高价值的学习,往往发生在难而可学的边界地带。

这也正是这篇工作的标题想表达的核心:Harder Is Better。