让7B千问模型超越o1，微软rStar-Math惊艳登场，网友盛赞|7b千问模型|math|实验|微软|推理|数学|知名企业|轨迹

机器之心报道

机器之心编辑部

OpenAI o1 给大模型规模扩展 vs 性能的曲线带来了一次上翘。它在大模型领域重现了当年 AlphaGo 强化学习的成功 —— 给越多算力，就输出越多智能，一直到超越人类水平。

但这种突破背后是庞大的算力支持与推理开销：API 的价格上，o1-preview 每百万输入 15 美元，每百万输出 60 美元，而最新版的 o3 在处理复杂推理任务时，单次成本更是高达数千美元。

业界一直在寻找一个更经济、更高效的解决方案。而这个答案可能比预期来得更快一些。

今天登顶 Hugging Face 热门榜一的论文展示了小模型的潜力。来自微软亚洲研究院的研究团队提出了rStar-Math。rStar-Math 向我们证明，1.5B 到 7B 规模的小型语言模型（SLM）无需从更大模型蒸馏，就能在数学推理能力上媲美甚至超越 OpenAI o1。

论文标题：rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking
论文链接：https://arxiv.org/pdf/2501.04519
Github 链接：https://github.com/microsoft/rStar（即将开源）

经过 4 轮自我进化，吸纳了 747k 数学问题合成的数百万数据，rStar-Math 将 SLM 的数学推理能力提升到了最先进水平。

例如，在 MATH 基准测试上，它将 Qwen2.5-Math-7B 的成绩从 58.8% 提升到了 90.0%，将 Phi3-mini-3.8B 的正确率从 41.4% 提升到了 86.4%，分别超过了 o1-preview 4.5% 和 0.9%。

拉到美国数学奥林匹克（AIME）的考场上，15 道题，rStar-Math 能够做对 8 道，在最优秀的高中数学竞赛生中也能排到前 20%。

更重要的是，他们只花了 60 块 A100 就达到了如此效果，项目和代码即将开源。

AI 投资人 Chetan Puttagunta 锐评：「对创业公司来说，这将是一个绝佳的机会！」

当如此强大的推理能力可以用更低的成本实现时，Keras 创始人 François Chollet 也感叹道：「2025 年将是开源 o3 复刻之年。」

学术圈的人对 rStar-Math 的欣赏，表达起来就直白多了：

发布不到 20 个小时，甚至就已经有人专门做了一期视频来深度解读。

视频链接：https://www.youtube.com/watch?v=cHgHS6Y3QP0

从技术层面来说，rStar-Math 引入了一种可以自己进化的 System 2 推理方法，通过蒙特卡洛树搜索（MCTS）来实现「深度思考」能力。在测试阶段，它会在奖励模型的指导下，让数学策略模型进行搜索推理。

具体来看，在 MCTS 中，数学问题求解被分解为多步生成。每一步都将作为策略模型的 SLM 采样候选节点。每个节点生成一步 CoT 和相应的 Python 代码。为验证生成质量，只保留 Python 代码执行成功的节点，从而减少中间步骤的错误。

此外，大量 MCTS rollout 基于每个中间步骤的贡献自动分配 Q 值：对正确答案贡献更多的步骤获得更高 Q 值，被认为质量更高。这确保了 SLM 生成的是正确、高质量的推理轨迹。

由于 rStar-Math 的总体架构涉及两个 SLM，一个是数学策略模型，一个是奖励模型，该团队引入了三个关键创新：

创新的代码增强 CoT 数据合成方法，通过大量 MCTS rollout 生成经过验证的逐步推理轨迹，用于训练策略 SLM；
过程奖励模型训练方法也有所改进，避免了简单的步级分数标注，提升了过程偏好模型（PPM）的评估效果；
模型会自我进化，采用完全自主训练方案，从零开始构建并训练模型，通过持续的迭代优化来不断提升推理能力。

方法

该研究的目标是训练数学策略 SLM 和过程奖励模型 (PRM)，并将两者集成到蒙特卡罗树搜索 (MCTS) 中以实现 System 2 深度思考。

选择 MCTS 有两个主要原因。

首先，它将复杂的数学问题分解为更简单的单步生成任务，与 Best-of-N 或 self-consistency 等其他 System 2 方法相比，MCTS 降低了策略 SLM 的难度。

其次，MCTS 中的逐步生成会自然产生两个模型的 step-level 训练数据。标准 MCTS rollout 会根据每个步骤对最终正确答案的贡献自动为每个步骤分配 Q 值，从而无需人工生成步骤级注释来进行过程奖励模型训练。

理想情况下，GPT-4 等高级 LLM 可以集成到 MCTS 中以生成训练数据。然而，这种方法面临两个关键挑战。首先，即使是强大的模型也难以持续解决难题，例如奥林匹克级别的数学问题。

因此，生成的训练数据将主要由更简单的可解决问题组成，限制了其多样性和质量。

其次，注释每步 Q 值需要广泛的 MCTS 部署；树探索（tree exploration）不足可能会导致虚假的 Q 值分配，例如高估次优步骤。鉴于每次 rollout 都涉及多个单步生成，并且这些模型的计算成本很高，因此增加 rollout 会显著提高推理成本。

为此，该研究探索使用两个 7B SLM（策略 SLM 和 PRM）来生成更高质量的训练数据，其较小的模型大小允许在可访问的硬件（例如 4×40GB A100 GPU）上广泛部署 MCTS。

然而，由于自生成数据的能力较弱，SLM 经常无法生成正确的解决方案，即使最终答案正确，中间步骤也常常存在缺陷或质量较差。此外，与 GPT-4 等高级模型相比，SLM 解决的挑战性问题较少。

如图 1 所示，为了减少错误和低质量的中间步骤，该研究提出了一种代码增强的 CoT 合成方法，该方法执行广泛的 MCTS 部署以生成逐步验证的推理轨迹，用 Q 值注释。

为了进一步提高 SLM 在挑战性问题上的性能，该研究提出了四轮自进化方案。在每一轮中，策略 SLM 和奖励模型都会更新为更强的版本，逐步解决更困难的问题并生成更高质量的训练数据。

最后，该研究提出了一种新颖的流程奖励模型训练方法，无需精确的每步奖励注释，从而产生更有效的流程偏好模型（PPM）。

实验评估

该团队在多个数学数据集上对 rStar-Math 进行了评估，并与多个模型进行了对比。具体设置请参阅原论文，这里我们主要来看研究结果。

主要结果

表 5 展示了 rStar-Math 与其它 SOTA 推理模型在不同的数学基准上的结果。

基于这些结果，该团队得出了三点观察：

rStar-Math 显著提高了小语言模型（SLM）的数学推理能力，在模型规模显著缩小（1.5B-7B）的情况下，其性能可媲美甚至超越 OpenAI o1。
尽管使用了较小的策略模型（1.5B-7B）和奖励模型（7B），rStar-Math 的表现仍明显优于最先进的 System 2 基线。
除了 MATH、GSM8K 和 AIME 等可能存在过度优化风险的知名基准之外，rStar-Math 在其他具有挑战性的数学基准上表现出很强的通用性，包括 Olympiad Bench、College Math 和 Chinese College Entrance Math Exam（Gaokao），创下了新的最高分。

扩展测试时间计算。rStar-Math 使用了 MCTS 来增强策略模型，在 PPM 的引导下搜索问题的解。通过增加测试时间计算，它可以探索更多轨迹，从而可能实现性能提升。

在图 3 中，该团队通过比较官方 Qwen Best-of-N 在四个高难度数学基准上不同数量的采样轨迹的准确度，展示了测试时间计算扩展的影响。

消融研究和分析

该团队也进行了消融研究，证明了三项创新的有效性。

自我进化的有效性。表 5 展示了经过 4 轮 rStar-Math 自我进化深度思考后得到的结果。可以看到，表现很不错。

表 6 给出了每一轮的数学推理性能，可以明显看到其准确度在不断提高。

表 7 则展示了在不同数据集上微调的 Qwen2.5-Math-7B 的数学推理准确度。

该团队给出了两项重要观察：

使用新提出的逐步验证的轨迹进行微调明显优于所有其他基线。这主要归功于用于代码增强型 CoT 合成的 PPM 增强型 MCTS，它能在数学解答生成期间提供更密集的验证。
使用该团队的小语言模型，即使随机采样代码增强型 CoT 解答，得到的结果也可媲美或优于 GPT-4 合成的 NuminaMath 和 MetaMath 数据集。这表明，经过几轮自我进化后，新的策略 SLM 可以生成高质量的数学解答。这些结果证明新方法在不依赖高级 LLM 蒸馏的情况下，就具备自我生成更高质量推理数据的巨大潜力。

另外，在最后一轮策略模型的基础上，该团队比较了 ORM、PQM 和 PPM 在 System 2 推理上的性能。结果见表 8。

可以看到，PQM 和 PPM 都优于 ORM，因为它们可提供更密集的步骤级奖励信号，从而在复杂的数学推理任务上获得更高的准确度。然而，由于 Q 值固有的不精确性，PQM 在更难的基准测试（例如 MATH 和 Olympiad Bench）上表现不佳。相比之下，PPM 构建了步骤级偏好数据进行训练，使该团队的 7B 策略模型在所有基准测试中都能够实现与 o1-mini 相当或更优的性能。

发现与讨论

模型出现自我反思能力

OpenAI o1 的一个重要突破是它能自省。当它出错时，o1 能识别错误并自我纠正。这在开源 LLM 中一直难以实现。在实验中，该团队意外发现 MCTS 驱动的深度思考展现出了反思能力。如图 4 所示，模型最初在前三步使用 SymPy 形式化方程会写出错误答案（左分支）。