打开网易新闻 查看精彩图片

这是一项由加州大学洛杉矶分校和微软研究院联合领导的突破性研究,发表于2026年2月,论文编号为arXiv:2602.02477v1。如有兴趣深入了解,读者可通过该编号查询完整论文。

想象你正在解决一道复杂的数学题。有两种方法摆在你面前:第一种是从头到尾逐步推导,一步一步往前走,这就像沿着长长的走廊直直地走向终点。第二种是先把这道大题拆成几个小题,分别解决它们,然后把答案拼起来,最后推出最终结论,就像先征服了几个小山头,再登顶主峰。这两种方法听起来都合理,但在最困难的问题面前,哪一种效果更好呢?这正是一项重要研究所探索的问题。

在大型语言模型的世界里,有一种被广泛采用的推理方法叫"链式思维"推理。简单来说,它就是让AI模型逐步写出思考过程,像人类一样一步步推导答案。OpenAI的O1和DeepSeek的R1等著名模型就是这样做的,它们在解决数学竞赛题时表现得相当不错。但当你给这些模型更难的题目时,比如国际数学奥林匹克竞赛的题目,或者涉及复杂定理证明的问题时,这种方法就开始力不从心了。

计算机科学中其实早就有一个古老而强大的策略,叫做"分治法"。这个策略来自于一个简单的人生哲学:当面对一个庞大而复杂的问题时,最聪明的做法是先把它分解成许多小问题,独立解决每一个小问题,然后再把这些小的解决方案拼接起来,形成最终答案。这个策略在编程领域已经被验证了几十年,效果极其可靠。那么问题来了:为什么不让AI模型学会使用同样的策略呢?

这正是研究团队要解决的问题。他们发现了一个有趣的现象:虽然有一些研究已经尝试在推理的时候让AI采用分治法,但现有的模型通常在这方面表现不佳。更关键的是,这些模型在训练的时候从未接触过分治推理的方法——它们的所有训练都基于传统的逐步推导方法。这就像教一个学生直着走路,然后突然让他在复杂的地形上改用曲折的小路走,模型自然不会很擅长。

为了解决这个根本的不匹配问题,研究团队做了一个勇敢的决定:从零开始教AI模型学会分治推理。他们没有依赖人工标注的答案,而是创造了一个自我探索的学习系统,让模型在尝试分治推理的过程中自我改进。这种方法叫做强化学习,这在处理像此类推理任务这样需要探索空间的复杂问题时,比传统的监督学习方法更加灵活有效。

一、揭示隐藏的问题:模型训练与推理方法的大脱节

问题的症结所在,其实就像一个演员花了十年时间学着走正步,却在舞台上突然被要求跳舞。当研究团队对当前市面上各种规模和类型的语言模型进行了广泛的测试时,他们发现了一个惊人的现象。他们让这些模型用两种不同的方法来解决数学竞赛问题。一种方法是这些模型训练时已经熟悉的链式思维方法,另一种是分治方法。

测试结果令人震惊。小的模型,比如那些有数十亿参数的模型,在使用分治方法时的准确率甚至低到可怜——平均只有约百分之九左右,而用链式思维方法时至少有百分之二十多。即使是更强大的模型,差距虽然不那么夸张,但也很明显。这说明了什么呢?这说明当前的大型语言模型确实存在一个根本性的问题:虽然分治方法在理论上可能更强大,但模型在实际使用中完全没有学会如何有效地利用这种优势。

模型为什么会这样呢?原因很简单:在模型的整个学习过程中,从预训练到后期的针对性训练,几乎所有的数据和反馈都围绕着链式思维这一种方法。模型反复看到的是"问题→逐步推导→答案"这样的模式,它的每一个参数都被调教得特别适合这种方式。当你突然要求它用完全不同的分治方法时,就像要求一个只会游泳的人突然去骑自行车,模型自然会显得笨手笨脚。

但这也意味着一个巨大的机会。如果能够系统地教导模型学会分治方法,那么模型可能会获得一个全新的推理维度。它将不再被限制在单一的推理范式内,而是可以根据问题的性质灵活选择最合适的方法。这就像给一个人增加了一套全新的技能,不仅能让他在某些特定问题上表现得更好,而且可能让他的整体问题解决能力上升到一个新的高度。

二、强化学习的魔法:让模型自己学会分治

研究团队决定用强化学习这种方法来教会模型新的技能。强化学习是什么呢?把它想象成一个教练训练运动员的过程。教练不是直接告诉运动员"你应该这样做",而是让运动员去尝试各种动作,然后根据结果给予奖励或惩罚。逐渐地,通过大量的尝试和反馈,运动员会学会哪些动作能获得最好的结果。

在这项研究中,强化学习系统的设计分为两个相互配合的部分,就像舞蹈中的两个步骤。第一个步骤被称为"分解"阶段。在这个阶段,模型面对一个复杂的数学问题时,被要求生成一组子问题——也就是把原问题拆解成更小、更容易管理的部分。模型需要确保生成的子问题足够有用,也足够清晰。为了确保模型不会作弊或走捷径,研究团队设定了一个基本要求:模型必须至少生成三个子问题。如果模型试图偷懒,比如只生成一两个非常简单的"子问题",系统就会给予负奖励。

第二个步骤被称为"求解"或"征服"阶段。在这个阶段,模型拿着生成的子问题,开始逐一求解。它先解决第一个子问题,然后用这个结果帮助解决第二个子问题,依此类推。最后,当所有子问题都有了答案时,模型用这些答案来推导原问题的最终答案。这就像拼图游戏:一旦你有了所有的小块,你就可以把它们组合起来看到完整的图景。

现在的关键问题是:系统怎么知道模型做得好不好呢?这里有一个巧妙的设计。对于子问题本身的生成质量,系统会检查三个方面。首先是"格式有效性":生成的子问题必须按照特定的格式呈现,这样系统才能准确地识别和提取它们。就像信件必须有正确的地址格式一样,子问题也需要正确的结构。其次是"数量有效性":如前所述,必须有足够数量的子问题。第三也是最重要的是"帮助性":这些子问题真的有助于解决原问题吗?系统通过检查这些子问题是否能帮助模型在征服阶段得出正确答案来判断。

对于征服阶段,评估就简单直接得多:模型最终得出的答案对不对?这里的巧妙之处在于,系统并不需要知道每个子问题的精确答案。它只需要看最终结果。这个设计基于一个深刻的直觉:如果模型在每个子问题上都错误百出,那么很难想象它能从这些错误的中间步骤推出正确的最终答案。反过来,如果最终答案是对的,那么很有可能中间的子问题解决得也不错。这个逻辑可以用一个严格的数学定理来支撑——研究论文中称之为引理2.1。这个定理证明了一个重要事实:如果系统遵循了分治的逻辑(即子问题的正确性影响最终答案的正确性),那么奖励最终答案的正确性实际上等同于奖励每个子问题的正确性。

这个设计的美妙之处在于它的简洁性和效率。系统不需要人工标注每一个子问题的答案,也不需要专家来评判分解是否合理。它只需要依赖最终答案这一个信号就能指导整个学习过程。这对于处理那些没有现成标准答案的前沿数学问题特别有价值。

三、训练的细节:让模型在自我挑战中进步

研究团队在实际的训练中采用了一种特定的强化学习算法,叫做GRPO(群组相对策略优化)。这是目前在大型语言模型的训练中比较先进的一种算法。用这个算法时,系统在每次迭代中会让模型进行大量的并行尝试。对于每个问题,模型会并行生成四组不同的子问题分解方案,然后针对每一组方案,再生成八个不同的最终答案尝试。这样加起来就是三十二个完整的尝试——从分解到最终答案的完整过程。

为什么要这样做呢?这样做的理由有两个。首先,大量的并行尝试增加了探索的多样性。模型不会总是重复同样的思维方式,而是被鼓励去尝试不同的分解策略和求解路径。其次,这些平行的尝试相互之间会产生比较效应。系统会看到哪些分解方案产生的最终答案更经常是正确的,从而逐步偏好那些更有效的分解策略。

在整个训练过程中,研究团队使用了两种不同规模的初始模型。第一个是基于Qwen系列的模型,这是一个相对较小的模型。第二个是更大更强的模型。他们在两个模型上都进行了实验,以观察分治方法对不同规模模型的影响。

训练的数据来自一个叫做DAPO-Math-17k的数据集,包含了大约17000个数学竞赛问题。研究团队用这些数据进行了接近六个完整的循环训练。在训练的后期,对于强大的模型,他们还额外关注了最困难的问题——约3700个模型在多次尝试中成功率低于50%的题目。对这些最难的问题,他们进行了更深入的训练,用更长的思考空间(最多24576个词元)来给模型充分的时间和空间去思考。

这个过程中有一个有趣的观察:虽然分治方法看起来会让模型的输出变长(因为它需要先解决子问题再解决主问题),但实际上,训练后的模型产生的输出反而变短了。这看起来有点反直觉,但其实是有道理的。分治方法让模型的思考更加结构化和有针对性,减少了冗余的重复推导和自我纠正。这就像一个经验丰富的设计师会用更少的草图和更有效的设计步骤,而不是初学者那样的反复尝试和修改。

四、实验验证:数字背后的故事

当研究团队用训练好的模型去做真实的数学竞赛题时,结果非常令人印象深刻。他们在四个顶级的数学竞赛基准上进行了测试:美国邀请数学考试(AIME) 2024和2025年的题目、超越AIME的题目,还有哈佛大学和麻省理工学院举办的数学竞赛题目。

对于较小的模型,改进特别显著。在Pass@1指标上(意思是模型一次性给出正确答案的成功率),分治方法比传统链式思维方法提高了2.2个百分点。在Pass@32指标上(意思是给模型32次尝试机会的成功率),提高了3.4个百分点。这似乎不是很大的提升,但要记住,这是在一个经过充分训练的模型基础上的改进,每一个百分点都代表着许多困难问题的突破。

更引人注目的是在较大的模型上的表现。对于一个已经相当强大的模型,分治方法在Pass@1上提高了8.6个百分点,在Pass@32上提高了6.3个百分点。这是一个非常显著的进步。考虑到这个模型本身已经经过了多轮高强度的训练,这样的改进更加值得注意。

有一个特别有趣的对比实验。研究团队试图通过简单地增加链式思维方法中的尝试次数来达到相同的效果。他们让模型在传统方法上做32次并行尝试,而不是原来的8次。但结果显示,这样做几乎没有产生任何改进。这强有力地证明了问题不在于尝试次数不够,而在于思维方法本身的局限性。分治方法打开了一个完全不同的能力窗口。

研究团队还进行了一个名为"深度分治"的高级实验。在这个实验中,他们在一个小规模的最难问题集合上进行了十个完整的训练周期,给模型更多的思考空间。在这个设置下,模型在某些测试集上的成功率达到了惊人的81.6%(Pass@32指标),相比起对照组的76.9%。

五、意外收获:分治训练强化了链式思维能力

在进行了一系列的分析性实验后,研究团队发现了一个令人惊讶的发现。他们尝试了一个混合方法:在小规模问题上继续使用传统的链式思维方法,只在困难问题上使用分治方法。他们想看看这样混合的方法会如何表现。

结果出乎意料地好。不仅分治方法在困难问题上表现更好(这是预期的),而且即使是使用传统链式思维方法来评估模型时,模型的表现也改善了。而且改进的幅度很大——在某些测试集上,仅通过链式思维方法的评估就提高了超过10个百分点。

这意味着什么呢?这意味着通过学习分治方法,模型实际上增强了它的整体推理能力。分治训练不是一个特殊的技能,而是对模型基础推理能力的一种深化。学会用分治方法思考,让模型在用链式思维时也变得更聪慧和高效。这就像学习一种新的运动技巧可能会提高你的整体身体协调能力一样。

六、测试时的灵活性:时间与准确率的精妙平衡

当模型在进行推理时,它的计算资源是有限的。如果允许模型做1024次尝试,应该如何分配这些尝试呢?是让模型生成很多个子问题分解方案,对每个分解只尝试少数几个求解呢(比如生成1024个分解,每个只尝试1次求解)?还是生成较少的分解方案,但对每个分解尝试更多次求解呢(比如只生成32个分解,每个尝试32次求解)?

研究团队测试了多种比例的组合。令人惊讶的是,增加分解方案的数量(即"分"的步骤)通常比增加求解尝试次数(即"治"的步骤)更有效。换句话说,探索更多的解题思路往往比反复尝试同一种思路更有价值。这个发现是有直观意义的:不同的分解方案代表着不同的问题理解角度。当你从更多的角度去理解一个难题时,总有一个角度会点醒你。

七、推理的结构与多样性:如何在精炼中保持创意

在训练过程中,研究团队观察了一个有趣的现象。他们测量了模型在训练过程中生成的文本长度。随着训练的进行,模型的输出实际上变得更短了。但这种缩短并不意味着思考变得更浅薄。研究团队用"熵"这个概念来测量模型思维的多样性。熵是信息论中的一个概念,用来衡量不确定性和多样性。他们发现,虽然模型的输出变短了,但其思维的多样性反而增加了。

这说明什么呢?这说明模型学会了更有效的思考方式。它不再需要冗长的自我重复和多余的推导,而是更精准地朝着解决方案前进。与此同时,它在不同的尝试之间保持了更高的多样性,尝试了更多不同的解题思路。这是效率和创意的完美结合。

八、从零开始学习:冷启动初始化的效果

研究团队还进行了一个实验,探索了一个实际的问题:如果我们想用一个较小的模型进行分治学习,但这个小模型可能不够聪慧来自己想出好的分解方案,怎么办呢?

他们采用了一种叫做"冷启动"的策略。在进行强化学习之前,他们先用一个更大、更聪明的模型来生成一些高质量的分治示例。具体来说,他们让一个大型模型为3000个精心选择的难题生成分治分解和求解过程。然后用这些生成的例子来对小模型进行监督式学习预训练。这就像先让一个学生观看一些专家如何解决问题的示范,然后再让他自己去练习。

结果表明这种方法确实有帮助。经过冷启动预训练的小模型不仅在分治方法上表现更好,而且在后续的强化学习中也能学得更快。更有趣的是,即使只用了3000个示例进行预训练,小模型的分治能力在某些指标上甚至已经超过了没有经过这种预训练的链式思维方法。这表明高质量的示例的示范作用是非常强大的。

九、规范性约束的代价与收益

在研究的最后,团队进行了一个有趣的实验。他们尝试向模型施加一个严格的格式约束:在求解子问题时,模型必须明确地按顺序标记出每一个子问题的解答(比如"子问题1的答案是..."、"子问题2的答案是...",诸如此类),而且只有严格遵守这个格式的解答才会获得奖励。

从表面上看,这似乎是个好主意。它确保了模型的输出结构清晰,易于人类理解。而且,从实验数据看,模型确实学会了遵守这个格式——在这个约束条件下,模型的格式遵守率高达92.1%。

但这里有一个权衡。当施加这个严格约束时,模型的实际解题成功率实际上下降了。在Pass@1指标上,成功率从51.3%下降到了45.2%。这个现象被研究人员称为"对齐税"——当你试图让模型更好地遵守某种外部规范时,有时会以牺牲其核心能力为代价。换句话说,模型在试图满足严格的格式要求时,反而分散了它在实际解题上的精力。这个发现提示了一个重要的设计原则:在设计AI系统的约束和奖励机制时,需要小心权衡结构清晰度和实际性能之间的关系。

十、理论基础的支撑:为什么这样做是合理的

在实验和工程设计的背后,研究团队建立了一个理论基础。他们证明了一个关键的数学引理。这个引理说的是,如果系统遵循分治逻辑(即子问题的正确性因果地影响最终答案的正确性),那么仅仅奖励最终答案的正确性,实际上等同于间接地奖励每个子问题的正确性。

这个理论保证了什么呢?它保证了研究团队采用的训练方法在逻辑上是健全的。系统不需要知道每个子问题的精确答案就能正确地指导模型学习,因为最终答案的正确性已经包含了关于所有中间步骤质量的信息。这个理论支撑让研究的方法论获得了坚实的基础。

十一、广阔的应用前景与未来方向

这项研究的成果不仅限于数学竞赛问题。分治思维是一个普遍的问题解决方法,适用于许多领域。从编程中的算法设计,到科学研究中的假设验证,再到日常生活中的复杂决策,分治方法都有其应用价值。

对于语言模型的发展而言,这项研究打开了一个新的方向。它表明,改进AI推理能力的一个关键途径,不是简单地让模型做更多次的尝试,而是教会它们使用更聪慧的思维策略。这就像教一个人不是仅仅让他更拼命地工作,而是教他如何更聪慧地工作一样。

此外,研究表明混合不同的推理策略也很有价值。未来的模型可能不会被局限于单一的推理范式,而是可以根据问题的特性灵活地选择最适合的方法。对于简单问题用快速的直接方法,对于复杂问题用分治方法。这种灵活性将大大增强模型的适应性和效率。

十二、深层意义:AI推理能力的新维度

回顾这项研究的整个故事,我们看到的是一个关于学习和改进的深层道理。问题的核心不在于模型的原始计算能力不足,而在于它们没有学到合适的思维方法。一旦用正确的方法来训练,曾经看似不可逾越的障碍就变得可以克服。

这个洞见不仅适用于机器学习领域。它反映了一个更普遍的真理:解决复杂问题的关键通常不在于更多的资源或更强的蛮力,而在于更好的策略和思维方式。在这个充满复杂问题的时代,这样的理解和能力变得越来越重要。

研究团队的这项工作展示了如何系统地识别AI模型的能力差距,以及如何通过教会它们新的思维方法来弥补这些差距。这为未来改进AI系统指明了一条清晰的道路:不仅要关注模型的规模和计算能力,更要关注它们的推理策略和思维方式。当这两者相结合时,AI系统的潜力才能真正被释放出来。