如何让机器学习像优秀教练指导学生一样精准|启发式|实验|数学|新论文|普适性

当你教孩子解数学题时，你会怎么做？如果孩子做对了，你会表扬他。但更重要的是，你要告诉他解题过程中的每一步是否走对了方向。比如在解一道复杂的几何题时，如果孩子第一步画对了辅助线，你会及时肯定这一步的价值，即使最终答案还没出来。这种精准的反馈能帮助孩子明白哪些思路是有价值的，从而在未来的练习中强化正确的解题方法。

现在，研究人员在训练人工智能解决复杂推理问题时，也面临着类似的挑战。当AI模型生成一长串推理步骤来解决数学问题时，研究者需要告诉它这个过程中哪些步骤是有价值的。这个问题听起来简单，但实际操作起来却困难重重。就像你无法准确评估孩子解题过程中每一个小动作的价值一样，现有的训练方法也很难准确判断AI推理过程中每个步骤的真实贡献。

当前主流的训练方法叫做PPO（近端策略优化），它依赖于一个叫GAE（广义优势估计）的机制来评估每个步骤的价值。GAE的做法就像一位过于细致的教练，试图评估学生解题过程中每一个微小动作的价值。这位教练会对学生写下的每一个符号、每一个计算步骤都给出评价。问题在于，当面对一道需要几十步甚至上百步才能解决的复杂问题时，教练很难准确判断前面那些步骤到底有多大价值。这就好比你让一位教练评估足球比赛中某个球员在第3分钟的某次传球对90分钟后的比赛结果有多大贡献——这种评估本身就充满了不确定性。

更糟糕的是，当教练对早期步骤的价值判断不准确时，这些错误的评估会层层累积。GAE在处理长序列时，会把所有这些不准确的评估加在一起，结果就是把噪音也一并放大了。这就像一位教练对学生解题过程中每个小细节的评价都有点偏差，当把所有这些偏差累加起来时，最终的指导意见可能已经严重偏离了正确方向。

腾讯团队提出的SAE（分段优势估计）方法，采用了一种更聪明的策略。这个方法不再试图评估每一个微小步骤的价值，而是先把整个推理过程划分成几个有意义的大段落，然后只在这些段落的关键转折点进行评估。这就像一位经验丰富的教练，不会纠结于学生的每一个小动作，而是关注解题过程中的几个关键环节：比如确定解题思路的那一刻、完成关键推导的那一步、得出最终答案的时刻。通过聚焦于这些信息量大、意义明确的关键节点，教练可以给出更准确、更有价值的指导。

研究团队在数学问题求解这个具有挑战性的领域验证了SAE方法的效果。他们使用了包含17000道高质量数学题的训练数据集，并在四个不同难度的测试集上评估模型性能，这些测试集涵盖了美国数学邀请赛2024年和2025年的题目、美国数学竞赛的题目，以及难度更高的BeyondAIME题目。实验结果显示，采用SAE方法训练的模型在所有测试集上的平均得分比最强的基准方法高出2.09个百分点。更重要的是，SAE方法在整个训练过程中表现出更好的稳定性和样本效率，这意味着它能够用更少的训练数据达到更好的效果。

传统方法遇到的瓶颈

要理解这项研究的价值，我们需要先了解训练AI解决推理问题时的困难所在。当前的主流做法是使用强化学习配合可验证奖励的方式，这种方法的核心思想是让AI生成解题步骤，然后通过自动验证器检查答案是否正确，给出简单的对错反馈。

这种训练方式面临两种主要选择。第一种选择是使用一个叫GRPO的简化方法，它的优点是实现起来相对简单，就像一位教练只关注学生最终是否答对题目，答对了就表扬，答错了就批评。这种方法的问题在于它无法提供细致的指导。对于一道需要十几步才能解决的复杂问题，即使学生最终答错了，其中某些步骤可能是正确的、有价值的。但GRPO方法无法区分这些差异，它只能给出一个笼统的评价。

第二种选择是使用更精细的PPO方法。PPO引入了一个额外的"价值模型"来预测每个中间步骤的价值，就像配备了一位助理教练，专门负责评估学生解题过程中每个步骤的质量。理论上说，这种方法应该能提供更精准的指导信号，帮助AI更好地学习。但在实际应用中，PPO遇到了严重的困难。

困难的根源在于价值预测的不可靠性。当面对一个复杂的推理任务时，要准确预测某个中间步骤的价值是极其困难的。这就好比让你预测一个学生在解题过程中写下的某个中间式子对最终解出答案有多大帮助，这本身就是一个很难回答的问题。在稀疏奖励的环境中——也就是只在最后给出答案对错的情况下——这个困难被进一步放大了。价值模型缺少足够的中间反馈信息来学习准确的价值评估，就像让教练在只知道最终成绩、不了解比赛过程的情况下评估运动员训练中每个动作的价值。

传统的GAE方法在处理这个问题时采用的策略是：在每个token位置都计算一个优势估计值，然后把这些估计值按照一定权重组合起来。这里的token可以理解为AI生成文本时的最小单位，大约相当于一个单词或符号。GAE的做法是为每个这样的最小单位都计算一个"优势分数"，用来表示生成这个单位相比平均水平好多少或差多少。

这种做法在理论上有其道理，因为它试图在偏差和方差之间找到平衡。但在长序列的推理任务中，这个方法暴露出严重的问题。当AI需要生成几千个token来完成一个复杂推理时，GAE就要为这几千个token都计算优势估计，然后把它们组合起来。问题在于，这几千个价值预测中的大部分都是不准确的，因为单个token往往承载的信息很少，而价值模型又缺乏足够的训练信号。当你把几千个都不太准确的估计值加在一起时，误差不会相互抵消，反而会累积放大。

这就像让一位对比赛细节不太了解的评委评价一场90分钟足球赛中每一秒的精彩程度，然后把这些评价加总起来得出比赛整体质量的评分。由于评委对大部分时刻的评价都基于猜测而非准确判断，最终的总分可能完全失真。在AI训练中，这种失真会直接导致训练信号的质量下降，让模型难以学到正确的推理方法。

现有的一些改进尝试只是在GAE的框架内做调整。比如有研究者提出把λ参数设为1，这样可以得到无偏的估计，但代价是方差大幅增加，训练变得不稳定。这就像教练决定不做任何主观判断，只根据最终成绩来评价，虽然避免了评价偏差，但也失去了细致指导的价值。另一种做法是根据序列长度动态调整λ值，长序列用较大的λ值。这种方法在一定程度上缓解了问题，但仍然需要大量的超参数调优，而且没有从根本上解决价值预测不准确的问题。

SAE方法的核心思想

腾讯团队提出的SAE方法基于一个简单但深刻的洞察：我们不需要评估每一个token的价值，实际上大部分token级别的评估不仅没有必要，反而有害。绝大多数单个token承载的信息量极小，对它们进行价值评估引入的噪音远大于提供的有用信号。真正有价值的是那些标志着推理过程发生重要转折的关键点。

研究团队注意到，AI生成的推理内容可以自然地组织成语义连贯的段落。比如在解数学题时，一个段落可能对应一个子问题的求解，另一个段落可能对应一个关键公式的推导。这些段落之间的转换点才是真正重要的评估位置。SAE的策略就是只在这些关键转折点进行优势评估，而不是在每个token位置都评估。

为了实现这个想法，研究团队需要解决一个技术问题：如何自动识别这些有意义的段落边界？他们提出了一个巧妙的启发式方法，这个方法基于模型自身生成token时的概率。当AI在一个连贯的推理段落内部生成内容时，每个token的生成概率通常都比较高，因为前面的内容已经建立了清晰的上下文，接下来要说什么基本上是可以预测的。比如在推导过程中写"根据勾股定理"之后，接下来很可能会写出具体的公式，这些token的生成概率都会比较高。

相反，当推理过程进入一个新的阶段时，模型面临的不确定性会突然增大。比如完成了一个子问题的求解，现在要开始处理下一个子问题，或者推导到某个节点需要引入一个新的数学概念——这些转折点上，模型需要"决定"接下来的推理方向，这种决策时刻对应的token生成概率往往较低。这些低概率token就像是推理路径上的路标，标记着重要的转折点。

基于这个观察，SAE定义了一个分割函数，它会把生成概率低于某个阈值的token标记为段落边界。这个阈值是一个可调的参数，研究团队在实验中设置为0.2，也就是说当某个token的生成概率低于20%时，就被认为是一个潜在的段落分界点。通过这种方式，整个推理序列被自动划分成若干个语义连贯的段落。

有了段落划分之后，SAE就可以实现其核心的优势估计策略了。不同于GAE在每个token位置都计算并组合优势估计，SAE只在那些段落边界位置计算优势估计。具体来说，对于某个token位置t，SAE会构造一个优势估计，但这个估计只包含从段落边界位置计算出的n步优势，而忽略段落内部位置的贡献。

这个设计的精妙之处在于，它有效地过滤掉了那些不可靠的价值预测。段落内部的那些token位置，它们的价值预测往往噪音很大、信息量很小，SAE通过不在这些位置进行bootstrapping（自举）操作，避免了这些噪音被引入最终的优势估计中。相反，SAE聚焦于那些段落边界位置，这些位置对应着推理的关键转折，它们的价值预测更有可能是可靠和有意义的。

从数学表达上看，SAE引入了一个自适应的衰减参数。这个参数在段落内部的token之间设为1（意味着不衰减），而在跨越段落边界时才应用标准的λ衰减。这样的设计使得同一个推理段落内的不同位置获得相同的权重，而不同段落之间则保持指数衰减的权重关系。这就像教练在评估一个完整的解题步骤时，把这个步骤内部的所有动作视为一个整体给出评价，而不是试图区分步骤内每个细微动作的价值差异。

从计算效率的角度看，SAE保持了GAE的递归形式，可以高效地计算。唯一的修改是让衰减因子变成条件依赖的：在段落内为1，跨段落时为λ。这意味着SAE可以很容易地集成到现有的PPO实现中，不需要增加额外的计算开销，只需要根据段落边界信息调整衰减因子即可。

理论支撑与实验验证

研究团队不仅提出了SAE这个直观的方法，还为它提供了理论分析。他们证明了在一定假设下，SAE的偏差上界与段落长度成反比关系：段落越长，偏差的理论上界越小。这个结果有重要的含义——它表明通过增加段落长度（相当于减少分割点数量），可以有效控制优势估计的偏差。

这个理论结果与传统的偏差-方差权衡提供了不同的视角。在传统GAE中，控制偏差的主要手段是调整λ参数，λ越小偏差越小但方差越大。而SAE提供了一个额外的控制维度：通过调整段落粒度来控制偏差。理论分析表明，对于给定的λ值，SAE通过使用较长的段落（即M>1，其中M是段落长度），可以获得比token级GAE（对应M=1）更小的偏差上界。

当然，这个理论分析是在简化假设下进行的，特别是假设了均匀分割。实际的SAE方法使用基于概率的动态分割，段落长度是变化的。但理论分析仍然提供了重要的洞察：通过战略性地选择在哪些位置进行优势估计的bootstrapping，我们可以在不增加方差的情况下减少偏差。

实验验证是最有说服力的证据。研究团队在数学问题求解这个具有挑战性的领域进行了全面的实验。他们使用Qwen3-8B作为基础模型，在包含17000道数学题的训练集上进行强化学习训练。训练过程中，每个步骤会从512个问题中采样4096个回答（每个问题8个回答），使用温度0.6进行生成，最大回答长度为8192个token。

测试集的选择很有代表性，涵盖了不同年份和难度的数学竞赛题目。AIME24和AIME25是美国数学邀请赛2024年和2025年的题目，这是高水平的数学竞赛。AMC是美国数学竞赛的题目，难度相对适中。BeyondAIME则包含难度更高、分布更广的推理任务。这样的测试设计可以全面检验模型的泛化能力。

实验结果显示，SAE在所有四个测试集上都取得了最高分数。平均分数比最强的基线方法高出2.09个百分点。在AIME24上得分38.54%，比基线高出3.12个百分点；在AIME25上得分30.21%，比基线高出4.79个百分点；在AMC上得分77.56%；在BeyondAIME上得分17.62%。这些提升在数学问题求解这个困难的任务上是非常显著的。

更重要的是训练过程的表现。从训练曲线可以看出，SAE从训练初期就展现出更好的样本效率，测试分数的提升速度明显快于基线方法。在整个训练过程中，SAE保持了稳定的性能提升，没有出现性能波动或退化。相比之下，GRPO方法在训练约400步后就出现了性能崩溃，测试分数急剧下降。这个现象进一步验证了基于价值模型的PPO方法在稳定性上的优势。

为了验证SAE的普适性，研究团队进行了多方面的消融实验。第一个维度是模型规模。他们在4B、8B和14B三种不同参数规模的模型上测试了SAE方法。结果显示，在所有三个规模上，SAE都持续优于基线方法，这表明SAE带来的改进不依赖于特定的模型容量，而是代表了优势估计过程的根本性改进。

第二个维度是应用领域。除了数学推理，研究团队还在代码生成和通用STEM问题两个领域测试了SAE。在代码生成任务上，使用4B模型在代码数据集上训练，然后在APPS、CodeContests、Codeforces和TACO等多个代码测试集上评估。在通用STEM问题上，使用GPQA-Diamond这个研究生水平的科学问答基准进行评估。在这两个领域中，SAE都显示出对基线方法的一致性优势，特别是在代码生成领域，当GRPO的性能在200步后开始停滞时，SAE的测试性能仍在持续提升。

方法有效性的直接证据

为了更直接地验证SAE产生了更好的优势估计，研究团队设计了一个创新的实验。他们构造了一个"近似真实优势"作为参考标准，然后测量不同方法计算的优势估计与这个标准的相关性。相关性越高，说明估计越准确。

构造近似真实优势的方法是这样的：研究团队随机采样多个轨迹片段，对每个片段识别出起始状态和终止状态。然后从这两个状态分别进行32次独立的蒙特卡洛采样，得到这两个状态价值的可靠估计。起始状态和终止状态的价值估计之差，就被定义为这个片段的近似真实优势。这个值被分配给片段内的每个token。同时，他们也计算各种方法（包括SAE和基线方法）对这些token位置给出的优势估计值。

实验结果非常有说服力。在所有测试的方法中，SAE与近似真实优势的相关性最高，达到0.209。GRPO的相关性只有0.114，PPO（λ=1）的相关性是0.154，使用自适应λ的PPO相关性是0.183。SAE显著超过了所有基线方法。

为了进一步探索GAE方法可能的最优表现，研究团队测试了不同λ值下GAE与真实优势的相关性。结果显示，即使把λ调整到最优值（约为0.209时达到峰值），GAE与真实优势的相关性仍然低于SAE。这个发现说明，SAE的优势不仅仅是更好的参数选择，而是方法本身的改进。

研究团队还发现了一个有趣的规律：不同方法的优势估计质量（用与真实优势的相关性衡量）与其在实际任务上的性能之间存在强相关关系。这意味着优势估计的准确性直接影响训练效果。这个发现为SAE的有效性提供了直接的机制解释：SAE通过产生更准确的优势估计，为策略更新提供了更可靠的训练信号，从而带来更好的最终性能。

关于分割阈值p的鲁棒性实验也很有启发。研究团队测试了p在0.05到0.9范围内的多个值。结果显示，在所有测试的p值下，SAE都持续优于基线方法。这表明SAE的性能改进来自于分段估计这个核心策略本身，而不是依赖于精细调优的参数。当然，不同的p值会影响最终性能，p=0.2时表现最好。更重要的是，研究团队发现，在给定的训练步数下，优势估计的质量（相关性）与最终任务性能高度相关，这为未来动态调整p值提供了方向：可以在训练过程中监控优势估计的质量，动态调整p值以优化性能。

研究团队还测试了不同的分割策略。除了基于概率的启发式分割，他们还测试了两种替代方案：均匀分割（每200个token一个分段）和基于换行符的分割。结果显示，所有的SAE变体都比基线方法收敛更快，这验证了分段估计策略的基础价值。但在不同分割方法中，基于概率的分割表现最好，这说明利用模型自身的不确定性来识别语义边界是最有效的策略。

方法的意义与启示

这项研究解决了强化学习在训练大语言模型进行长序列推理时的一个核心难题。在稀疏奖励的场景下，如何为模型提供准确的细粒度训练信号，一直是研究者面临的挑战。传统GAE方法虽然在理论上优雅，但在实践中面临偏差累积的困境。SAE通过改变优势估计的粒度——从token级转向段落级——找到了一个务实的解决方案。

SAE的设计哲学值得深思。它提醒我们，面对复杂问题时，有时候"少即是多"。不是所有的细节都值得同等关注，过度的精细化有时会引入更多噪音而非信号。通过战略性地选择在哪些关键点进行评估，我们可以用更少的评估获得更可靠的结果。这个思想不仅适用于优势估计，可能在其他机器学习问题中也有借鉴意义。

从技术实现的角度看，SAE的一大优点是易于集成。它保持了GAE的递归计算形式，只需要根据分段边界条件性地调整衰减因子。这意味着现有的PPO实现可以很容易地采用SAE，不需要重写核心算法。这种渐进式改进的方式，降低了新方法的采用门槛。

研究中使用的基于概率的分段启发式方法也展现了一定的普适性。它不依赖于任务特定的关键词或模式，而是利用模型生成时的内在特征。这使得SAE可以直接应用于不同的推理任务，而不需要针对每个任务设计专门的分段规则。实验在数学、代码生成和STEM问题三个不同领域的成功验证了这一点。

当然，这项研究也留下了一些值得探索的方向。目前的分段方法虽然有效，但仍然是基于一个相对简单的启发式规则。研究团队也指出，他们初步测试了朴素的均匀分段方法，发现无法改善样本效率，这凸显了分段策略的重要性。未来可能可以开发更复杂的分段方法，比如利用更多的语义信息、学习一个专门的分段模型、或者根据训练进展动态调整分段策略。

另一个有意思的方向是优势估计质量与任务性能的关系。研究发现这两者高度相关，这为在线监控和优化训练过程提供了可能。如果我们能在训练过程中实时评估优势估计的质量，就可以动态调整分段阈值或其他超参数，让训练过程更加自适应和高效。

对于实际应用者来说，这项研究提供了一个在相同计算资源下获得更好性能的方法。实验显示SAE在样本效率和训练稳定性上都有显著改进，这意味着可以用更少的训练数据和更短的训练时间达到更好的效果。考虑到训练大型语言模型的计算成本，这种效率提升具有实际价值。

训练AI就像培养学生一样，需要在合适的时机给予恰当的反馈。SAE的成功告诉我们，与其试图对每个细节都给出评价，不如聚焦于那些真正重要的节点，给出更准确、更有价值的指导。这种策略不仅提高了训练效果，也为我们理解如何更好地与AI系统互动提供了启发。有兴趣深入了解技术细节的读者，可以通过论文编号arXiv:2601.07320v1查阅完整的研究论文。

本文来自至顶AI实验室，一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破，挖掘其潜在的应用场景，为企业和个人提供切实可行的解决方案。

Q&A

Q1：SAE方法与传统的GAE方法相比有什么本质区别？

A：传统GAE方法会在生成序列的每个token位置都计算优势估计并进行加权组合，而SAE方法则先将序列划分成语义连贯的段落，只在段落边界这些关键转折点计算优势估计。本质区别在于评估的粒度不同：GAE是token级的细粒度评估，而SAE是段落级的粗粒度评估。由于在稀疏奖励场景下，大多数token位置的价值预测都不准确，GAE在组合这些估计时会累积大量噪音，而SAE通过只关注信息丰富的段落边界，有效过滤了这些噪音，从而得到更可靠的优势估计。

Q2：SAE如何识别推理过程中的段落边界？

A：SAE使用了一个基于生成概率的启发式方法来识别段落边界。核心思想是：当AI在一个连贯的推理段落内生成内容时，各个token的生成概率通常较高，因为上下文已经建立了清晰的预期；而当推理过程进入新阶段或发生重要转折时，模型面临更大的不确定性，对应的token生成概率会较低。因此，SAE将那些生成概率低于设定阈值（如0.2）的token标记为段落边界。这种方法的优势在于它不依赖任务特定的关键词或规则，而是利用模型自身输出的内在特征，因此具有较好的普适性。实验表明，这种基于概率的分割方法优于均匀分割和基于特殊符号的分割。

Q3：SAE方法在实际应用中的优势体现在哪些方面？

A：SAE在实际应用中展现出三方面主要优势。第一是性能提升：在数学问题求解任务上，SAE训练的模型平均得分比最强基线高出2.09个百分点，在多个测试集上都取得了最佳成绩。第二是训练稳定性：实验显示SAE在整个训练过程中保持稳定的性能提升，没有出现其他方法可能遭遇的性能崩溃或波动。第三是样本效率：SAE从训练初期就展现出更快的收敛速度，能用更少的训练样本达到更好的效果。此外，SAE的实现相对简单，可以轻松集成到现有的PPO框架中，不需要额外的计算开销。研究还发现SAE的有效性在4B、8B、14B不同规模的模型上都得到验证，并且在数学、代码生成、STEM问题等多个领域都表现出色，显示出良好的普适性。