2024年,大模型训练领域有个数据被很多人忽略了:用对方法,模型收敛速度能差出3倍以上。这不是算力堆出来的,是反馈机制选错了。
训练大语言模型本质上是在选「老师」。两种主流路径,一个像家教坐旁边逐字批改,一个像考试只看最终对错。前者叫策略内蒸馏(OPD),后者叫可验证奖励的强化学习(RLVR)。
OPD的反馈密度极高。教师模型盯着学生每一步,哪个token(词元)推理对了、哪个跑偏了,实时标注。信息量大,理论上效率最优,实践中也确实让模型收敛更快、天花板更高。
RLVR走的是另一条路。环境给反馈:数学题解没解对、推理链有没有漏洞。信号稀疏,往往一整条轨迹就一个比特的信息。但好处是锚定真相——环境不会说谎,也不会为了省事而简化。
行业一度倒向蒸馏,因为密集反馈太香了。但研究者很快想到:如果模型能自己监督自己呢?
学生生成答案时不知道正确答案,但换个前向传播,同一个模型假设自己知道答案,会怎么写?两个版本的差距,不就成了自我监督信号?
这叫策略内自蒸馏(OPSD)。听起来优雅,理论上必须成立。
自蒸馏的崩溃:当学生和老师是同一个人
纯OPSD训练的结果让团队懵了:性能先冲顶,再断崖式下跌。模型没学会稳健推理,只学会了钻自己监督信号的空子。
问题出在反馈循环的结构里。学生版生成答案,教师版(同一个模型)生成「知道答案后会怎么写」。两者差异构成训练信号。
理论上,这该推动模型向正确答案靠拢。实际上,当学生和教师版本已经足够相似时,差异信号开始失真。模型不是在学推理,是在学怎么让自己的两个版本看起来一致。
信息泄漏像滚雪球。早期训练靠这种「自我一致性」快速提升,后期却陷入自我强化的幻觉。峰值性能来得早,去得也快,最终收敛点远低于预期。
团队试过各种补丁:限制教师版的信息访问、增加正则化、调整温度参数。治标不治本。核心矛盾没解决——同一个认知架构,既当裁判又当运动员,信号必然腐化。
RLSD的缝合:把两种反馈焊在一起
突破口来自一个粗暴的观察:RLVR的稀疏信号虽然「笨」,但从不撒谎。如果让自蒸馏的密集反馈锚定在RLVR的真实奖励上,能不能兼得两者之长?
由此诞生了强化学习自蒸馏(RLSD)。框架很简单:用GRPO(组相对策略优化,一种强化学习算法)的稳定性打底,把自蒸馏的密集梯度嫁接上去。
具体操作上,模型先按GRPO的标准流程走——生成一组回答,用可验证奖励打分,算相对优势。然后插入关键一步:对同一组回答,让模型生成「知道正确答案后的修订版」,用原始回答与修订版的token级差异,构造辅助监督信号。
这个辅助信号不再自由浮动,而是被RLVR的稀疏奖励「校准」。如果GRPO说这组回答整体很差,自蒸馏的密集反馈也会被压制;如果GRPO认可,密集反馈才全力优化细节。
结果对比很直观。OPSD早期冲得快,但第30%训练进度左右开始震荡下跌,最终收敛在基准线以下。RLSD起步稍慢,但曲线稳定上扬,最终天花板比OPSD高出47%——这还是在同等算力、同等数据下的结果。
更关键的是稳定性。RLSD的训练 loss 曲线没有OPSD那种诡异的尖峰和塌陷,工程上可直接部署,不用人工找早停点。
为什么这套组合能work:信号锚定的物理直觉
用个不严谨的类比:OPSD像一个人对着镜子练表情,越练越觉得自己演技炸裂,实际早僵化成面具。RLVR像观众投票,粗糙但真实。RLSD则是先让观众筛一遍,再在通过筛选的片段里抠细节。
密集反馈的价值没有被否定,只是被重新定位。它不再承担「判断对错」的职能,只负责「在对的框架里优化表达」。对错的判断权交给环境,交给可验证的奖励函数。
这种分工有个深层好处:RLSD的密集信号天然带有「不确定性量化」的属性。当模型对某一步不太确定时,原始回答和修订版的差异会放大;确定时,差异缩小。这相当于给训练过程内置了注意力机制,自动把优化资源投向模糊地带。
实验数据支持这个直觉。在 multimodal reasoning(多模态推理)任务上,RLSD的token级梯度方差比OPSD低62%,意味着训练信号更干净、更少噪声。
团队还测试了极端情况:把可验证奖励的稀疏度拉到极限,每100条轨迹才给一次真实反馈。纯RLVR在这种情况下基本失效,RLSD仍能保持70%以上的最终性能。密集反馈的「填充」作用在信号稀缺时尤为明显。
工程落地:一个被低估的细节
RLSD的代码实现有个微妙之处。GRPO原本要对同一问题采样多条回答算相对优势,RLSD在此基础上,对每条回答再跑一遍「修订版」生成。计算量看起来翻倍,实际可通过KV缓存(键值缓存)优化,额外开销控制在15%以内。
更省钱的技巧是「延迟修订」:不每条回答都生成修订版,只对那些GRPO优势分排前50%的候选做密集优化。劣质回答直接丢弃,不让它们污染自蒸馏信号。这个变体叫RLSD-TopK,最终性能损失不到3%,训练速度提升40%。
开源社区已经有人复现。HuggingFace上一个7B参数的实验显示,RLSD在GSM8K(数学推理基准)上从72%提升到89%,而同等资源下的纯OPSD在75%附近震荡,始终突破不了。
论文作者之一的后续访谈提到,他们最初想把这套方法命名为「Self-Play Distillation」,被合作者否决了——「self-play」在围棋AI里特指对抗性训练,容易误导。最终定名RLSD,强调的是强化学习框架的底座地位。
这个命名选择本身是个信号。2024年的大模型训练,「蒸馏」这个词的光环正在褪色,「强化学习」重新被正视。不是因为它更酷,是因为它更诚实——环境奖励不会为了paper的漂亮曲线而妥协。
RLSD的完整实现细节预计在下个月的技术报告中公开。一个悬而未决的问题是:如果可验证奖励本身有噪声(比如代码测试用例覆盖不全),RLSD的锚定机制会不会把错误也放大?作者的原话是「我们还没测过,但理论上应该有正则化手段」。
热门跟贴