ACL 2026 | 中科大&上海AILab揭示强化学习后训练的Scaling Law|law|scaling|实验|数学|预训练

从 DeepSeek-R1 到 Kimi K2.5，强化学习（RL）后训练已经成为提升大模型推理能力的核心手段。

但一个关键问题始终悬而未决：RL 后训练的 Scaling 行为到底遵循什么规律？能否像预训练 Scaling Law 那样，给定模型参数量、计算预算和数据量，就能定量预测 RL 后训练所能达到的性能？又能否像预训练 Scaling Law 那样，为实践者指明一条清晰的扩展路径？

来自中国科学技术大学和上海人工智能实验室等机构的研究团队给出了系统性的回答。团队在 Qwen2.5 全系列密集模型（0.5B–72B）上开展了大规模 RL 训练实证研究，并在 Llama 3 系列（1B–70B）上完成了跨架构验证，首次全面刻画了大模型强化学习后训练在数学推理任务上的 Scaling 行为，提出了一套能够预测模型学习效率与训练轨迹的幂律公式。

目前该工作已被 ACL 2026 主会议接收。

论文地址：https://arxiv.org/abs/2509.25300
代码链接：https://github.com/tanzelin430/Mathematical-Reasoning-RL-Scaling-Law
数据集：https://huggingface.co/datasets/Artemis0430/GURU-MATH-CL

预训练有 Scaling Law，RL 后训练呢？

Scaling Law 的故事并不陌生。OpenAI 早在 2020 年便揭示了预训练阶段的 Scaling 法则，证明模型性能随参数量、数据量和计算量的增长呈现可预测的幂律关系，奠定了现代大模型「规模即力量」的范式基础。

然而，当训练范式从预训练 / 监督微调阶段延伸到强化学习后训练时，这套 Scaling 规律便难以直接套用。RL 的核心目标是通过策略优化来最大化奖励，而非最小化 next-token prediction 的交叉熵损失，其训练动态、数据利用方式和计算消耗模式都与预训练有着本质区别。

这意味着，要理解 RL 后训练的 Scaling 行为，需要回到实验中去，重新建立属于 RL 自身的经验规律。

研究团队选择数学推理作为实验平台，原因在于数学任务具有天然的答案可验证性，能够为 RL 提供精确的奖励信号，是当前 RL 后训练最成熟的基准场景。在此基础上，团队围绕计算受限、数据受限和数据重用三种典型场景展开了大规模受控实验。

实验设计与评测框架

为确保结论的鲁棒性，研究团队在实验设计上做了充分的控制。

模型方面，主实验覆盖了 Qwen2.5 全系列 Dense 模型（0.5B 至 72B），共享相同架构，确保模型规模是唯一变量。

同时，为了保证 Scaling Law 的通用性，研究人员还在 Llama 3 系列（1B 至 70B）上进行了跨架构验证。训练统一采用 VeRL 分布式 RL 平台和 GRPO 算法，每个配置重复 3 次，覆盖 Base 和 Instruct 两种模型变体，以保证统计可靠性。

训练数据来自 guru-RL-92k 数据集的数学子集（约 5.4 万道题，由 OR1、DeepScaler、DAPO 三个数据集组成），按难度排序实现课程学习。

评测方面，研究团队定义测试损失 L = 1 - Pass@1 作为核心指标，以期与预训练 Scaling Law 文献中的 test loss 概念对齐。域内评测基于 500 道保持原始难度分布的数学题用于拟合 Scaling Law，跨领域评测则覆盖数学、代码、逻辑、科学等 8 个 benchmark 共约 3000 道题。

基于这套实验框架，研究团队得到了三个关键发现。

核心发现

发现一：具有 RL 性能预测能力 Scaling Law

研究的核心发现是一个简洁而强大的 scaling 公式。模型的测试损失 L 与训练资源 X（计算量 C 或数据量 D）之间存在对数线性关系：

其中，k (N) 是模型在强化学习后训练阶段的学习效率，它随模型参数量 N 单调递增。

实验表明，该 Scaling 公式不仅能高精度拟合已有数据（R² > 0.99），并且具备实际的预测能力，具体体现在两个方面。

跨模型外推（Inter-model Extrapolation）：该 Scaling Law 支持利用小参数量模型的训练数据来预测更大参数量模型的训练轨迹。以本文为例，研究人员基于 0.5B 至 32B 模型的实验数据拟合公式参数后，可直接预测 72B 模型的完整训练曲线，且预测所得的学习效率等关键指标与 72B 模型的实际表现高度吻合。

这意味着，研究人员只需通过小模型实验，便能预判大模型的训练走向，从而大幅降低试错成本。

图 (1).Scaling Law 的拟合与跨模型外推能力

训练轨迹预测（Intra-model Prediction）：该 Scaling Law 同样支持对单一模型训练过程的走势预测。研究人员仅需使用训练早期约 20%–30% 的数据点，便可准确外推出模型在完整数据集上的最终收敛性能。

这意味着，无需等待训练全程结束，研究人员便能大致预判模型的收敛走向，从而为训练过程中的资源分配与早停决策提供直接的指导依据，有效降低不必要的算力消耗。

图 (2).Scaling Law 的拟合与模型内轨迹预测能力

需要特别指出的是，这一公式在 Compute（C）和 Data（D）两个维度上具有统一的函数形式，即无论以算力还是数据量作为自变量，性能的 scaling 行为都遵循相同的数学结构。这种理论一致性为公式的可靠性提供了额外支撑。

发现二：学习效率的饱和趋势

为了更精确的研究 Scaling Law，研究团队对强化学习效率 k (N) 也进行了大量实证分析。

研究发现，更大的模型的确会学得更快。从 0.5B 到 72B，学习效率系数 k (N) 持续增长。但关键在于：这种增长并非线性的，而是逐渐趋于饱和。据此现象，研究团队将强化学习的学习效率 k (N) 建模为

图 (3). 强化学习后训练的学习效率随模型参数量的变化趋势

这在实验中表现为一个有趣的「性能交叉」现象，如图 1.(a) 所示，在等量计算预算下，32B 模型在训练初期的表现甚至优于 72B，因为更小的模型在相同计算量下能完成更多训练步数。

研究团队认为该现象揭示了一个关键的隐性权衡，即在计算受限的场景下，盲目堆大模型未必是最优策略。在有限预算内，找到模型规模和训练步数之间的平衡点，可能比简单地选择最大模型更为明智。这一发现为 RL 后训练的资源分配提供了重要的定量依据。

发现三：数据重用是有效策略

在探究 Scaling Law 之外，团队还对在 RL 中一个非常实际的问题进行了探究：反复使用同一批数据训练效果如何？数据重用是否会对训练轨迹和最终性能造成显著影响？

图 (4). 数据重用对强化学习训练轨迹的影响

研究团队证实，在高质量推理数据有限的场景下，适度的数据重用是一种低成本、高回报的训练策略。无需费力搜集更多数据，反复利用现有的高质量数据即可获得接近等价的训练效果，且不会对训练轨迹造成明显的偏差。

Scaling Law 的跨架构验证

以上发现均基于 Qwen2.5 系列。一个自然的问题是：这些 scaling 行为是特定架构的产物，还是 RL 后训练的普遍规律？

为此，研究团队在Llama 3 模型族（Llama-3.2-1B/3B-Instruct、Llama-3.1-8B/70B-Instruct）上重复了完整实验。

结果表明，同一幂律公式在 Llama 上同样成立，且拟合后与实际训练数据点的 R² > 0.99。尽管 Llama 在训练后的绝对性能上低于 Qwen，但scaling 关系的函数形式完全一致，k (N) 的饱和趋势也保持不变。

图 (5).Scaling Law 在 Llama 系列模型上的拟合效果

这一跨架构验证确认了研究团队所揭示的 Scaling Law 刻画的是 RL 后训练优化过程本身的内在规律，而非特定模型架构的特性。无论底层架构如何，只要采用相同的 RL 后训练范式，性能的 scaling 行为就遵循统一的数学描述。

总结

这项工作的核心贡献在于，通过对 Qwen2.5 和 Llama 3 两个模型家族上的所有参数量级模型进行实证分析，为 RL 后训练建立了系统性的 scaling 理论框架，并给出了可预测强化学习训练轨迹的数学公式（Scaling Law）。

对于正在用 RL 提升大模型推理能力的研究者和工程师来说，这篇论文提供了一套可量化、可预测、可指导实践的分析框架。而效率饱和这一发现，也在提醒我们：scale up 是有力的手段，但不是万能的，理解 scaling 的边界，才能更聪明地 scale。

作者介绍

本文由中国科学技术大学联合上海人工智能实验室、牛津大学等多家机构研究者合作完成。主要作者为上海人工智能实验室联培博士谭泽霖、牛津大学研究员耿鹤嘉等。其中论文第一作者谭泽霖是中科大与上海人工智能实验室联合培养博士生，其研究方向主要为智能体强化学习和机器学习系统。导师为白磊研究员，该篇文章由上海人工智能实验室青年研究员张晨、牛津大学博后尹榛菲博士联合执导。