OpenAI前员工揭秘：2种训练法让AI智商差距拉大到47%|信号|实验|推理|算法|锚定

2024年，大模型训练领域有个数据被很多人忽略了：用对方法，模型收敛速度能差出3倍以上。这不是算力堆出来的，是反馈机制选错了。

训练大语言模型本质上是在选「老师」。两种主流路径，一个像家教坐旁边逐字批改，一个像考试只看最终对错。前者叫策略内蒸馏（OPD），后者叫可验证奖励的强化学习（RLVR）。

OPD的反馈密度极高。教师模型盯着学生每一步，哪个token（词元）推理对了、哪个跑偏了，实时标注。信息量大，理论上效率最优，实践中也确实让模型收敛更快、天花板更高。

RLVR走的是另一条路。环境给反馈：数学题解没解对、推理链有没有漏洞。信号稀疏，往往一整条轨迹就一个比特的信息。但好处是锚定真相——环境不会说谎，也不会为了省事而简化。

行业一度倒向蒸馏，因为密集反馈太香了。但研究者很快想到：如果模型能自己监督自己呢？

学生生成答案时不知道正确答案，但换个前向传播，同一个模型假设自己知道答案，会怎么写？两个版本的差距，不就成了自我监督信号？

这叫策略内自蒸馏（OPSD）。听起来优雅，理论上必须成立。

纯OPSD训练的结果让团队懵了：性能先冲顶，再断崖式下跌。模型没学会稳健推理，只学会了钻自己监督信号的空子。

问题出在反馈循环的结构里。学生版生成答案，教师版（同一个模型）生成「知道答案后会怎么写」。两者差异构成训练信号。

理论上，这该推动模型向正确答案靠拢。实际上，当学生和教师版本已经足够相似时，差异信号开始失真。模型不是在学推理，是在学怎么让自己的两个版本看起来一致。

信息泄漏像滚雪球。早期训练靠这种「自我一致性」快速提升，后期却陷入自我强化的幻觉。峰值性能来得早，去得也快，最终收敛点远低于预期。

团队试过各种补丁：限制教师版的信息访问、增加正则化、调整温度参数。治标不治本。核心矛盾没解决——同一个认知架构，既当裁判又当运动员，信号必然腐化。

突破口来自一个粗暴的观察：RLVR的稀疏信号虽然「笨」，但从不撒谎。如果让自蒸馏的密集反馈锚定在RLVR的真实奖励上，能不能兼得两者之长？

由此诞生了强化学习自蒸馏（RLSD）。框架很简单：用GRPO（组相对策略优化，一种强化学习算法）的稳定性打底，把自蒸馏的密集梯度嫁接上去。

具体操作上，模型先按GRPO的标准流程走——生成一组回答，用可验证奖励打分，算相对优势。然后插入关键一步：对同一组回答，让模型生成「知道正确答案后的修订版」，用原始回答与修订版的token级差异，构造辅助监督信号。

这个辅助信号不再自由浮动，而是被RLVR的稀疏奖励「校准」。如果GRPO说这组回答整体很差，自蒸馏的密集反馈也会被压制；如果GRPO认可，密集反馈才全力优化细节。

结果对比很直观。OPSD早期冲得快，但第30%训练进度左右开始震荡下跌，最终收敛在基准线以下。RLSD起步稍慢，但曲线稳定上扬，最终天花板比OPSD高出47%——这还是在同等算力、同等数据下的结果。

更关键的是稳定性。RLSD的训练 loss 曲线没有OPSD那种诡异的尖峰和塌陷，工程上可直接部署，不用人工找早停点。

用个不严谨的类比：OPSD像一个人对着镜子练表情，越练越觉得自己演技炸裂，实际早僵化成面具。RLVR像观众投票，粗糙但真实。RLSD则是先让观众筛一遍，再在通过筛选的片段里抠细节。

密集反馈的价值没有被否定，只是被重新定位。它不再承担「判断对错」的职能，只负责「在对的框架里优化表达」。对错的判断权交给环境，交给可验证的奖励函数。

这种分工有个深层好处：RLSD的密集信号天然带有「不确定性量化」的属性。当模型对某一步不太确定时，原始回答和修订版的差异会放大；确定时，差异缩小。这相当于给训练过程内置了注意力机制，自动把优化资源投向模糊地带。

实验数据支持这个直觉。在 multimodal reasoning（多模态推理）任务上，RLSD的token级梯度方差比OPSD低62%，意味着训练信号更干净、更少噪声。

团队还测试了极端情况：把可验证奖励的稀疏度拉到极限，每100条轨迹才给一次真实反馈。纯RLVR在这种情况下基本失效，RLSD仍能保持70%以上的最终性能。密集反馈的「填充」作用在信号稀缺时尤为明显。

RLSD的代码实现有个微妙之处。GRPO原本要对同一问题采样多条回答算相对优势，RLSD在此基础上，对每条回答再跑一遍「修订版」生成。计算量看起来翻倍，实际可通过KV缓存（键值缓存）优化，额外开销控制在15%以内。

更省钱的技巧是「延迟修订」：不每条回答都生成修订版，只对那些GRPO优势分排前50%的候选做密集优化。劣质回答直接丢弃，不让它们污染自蒸馏信号。这个变体叫RLSD-TopK，最终性能损失不到3%，训练速度提升40%。

开源社区已经有人复现。HuggingFace上一个7B参数的实验显示，RLSD在GSM8K（数学推理基准）上从72%提升到89%，而同等资源下的纯OPSD在75%附近震荡，始终突破不了。

论文作者之一的后续访谈提到，他们最初想把这套方法命名为「Self-Play Distillation」，被合作者否决了——「self-play」在围棋AI里特指对抗性训练，容易误导。最终定名RLSD，强调的是强化学习框架的底座地位。

这个命名选择本身是个信号。2024年的大模型训练，「蒸馏」这个词的光环正在褪色，「强化学习」重新被正视。不是因为它更酷，是因为它更诚实——环境奖励不会为了paper的漂亮曲线而妥协。

RLSD的完整实现细节预计在下个月的技术报告中公开。一个悬而未决的问题是：如果可验证奖励本身有噪声（比如代码测试用例覆盖不全），RLSD的锚定机制会不会把错误也放大？作者的原话是「我们还没测过，但理论上应该有正则化手段」。