SFT的泛化并非算法本身的属性,而是同时依赖于优化、数据、基模型能力的条件属性。
在大模型后训练领域,一个被广泛流传的叙事是:“监督微调(SFT)倾向于记忆,而强化学习(RL)实现泛化。” 这一观点自Chu et al. 在合成任务上的实证研究后逐渐成为主流认知,并在后续的数学推理等场景中也被验证(Huan et al.)。这一叙事极大地影响了学术界对后训练方法的认识,促使研究者将注意力集中于理解RL相对于SFT的优势,或是如何改进SFT的目标函数。
然而,上海人工智能实验室、上海交通大学、中国科学技术大学联合发布的研究《Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability》对这一叙事的严谨性提出了质疑。该研究指出,“SFT是否泛化”这一问题本身是欠定义的(under-specified)。泛化并非SFT训练目标的固有属性,而是一个条件性现象,受到优化动态(optimization dynamics)、训练数据(training data)以及基模型能力(model capability)三个因素的共同塑造。
本文将梳理该论文的核心发现,为相关研究者和工程师提供完整的认知框架。
论文信息
论文标题:Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability
作者:Qihan Ren, Peng Wang, Ruikun Cai, Shuai Shao, Dadi Guo, Yuejin Xie, Yafu Li, Quanshi Zhang, Xia Hu, Jing Shao, Dongrui Liu
机构:上海人工智能实验室、上海交通大学、中国科学技术大学
arxiv链接:https://arxiv.org/abs/2604.06628
github链接:
https://github.com/Nebularaid2000/rethink_sft_generalization
huggingface链接:
https://huggingface.co/collections/jasonrqh/rethink-sft-generalization
01
优化动态:表观的 “不泛化”可能源于优化不充分
1.1 现象复现与扩展观察
研究团队首先在较短训练轮次的设定下复现了先前研究的结论:使用20k包含长思维链的数学数据对Qwen3-14B-Base进行1个epoch的微调后,模型在分布内(ID)数学任务上获得了显著提升(如AIME24提升29.7%),但在分布外(OOD)任务上的收益有限甚至为负(科学推理仅提升2.9%,指令遵循降低9.8%)。这一结果与Huan et al. 的发现高度一致。
然而,当训练轮次延长至8个epoch并持续监控性能轨迹时,研究者观察到了一个关键特征:跨领域性能呈现 “先降后升”(dip-and-recovery)的非单调轨迹。具体而言,在训练初期,OOD任务性能会经历明显下降;但随着训练的持续深入,性能慢慢恢复并最终超越基模型的初始水平。
这一现象在Qwen3-14B-Base、Qwen3-8B-Base、InternLM2.5-20B-Base等多个模型上均得到验证,且在使用DeepSeek-R1生成的数据时同样成立,表明该动力学特征并非特定模型或数据源的产物。
1.2 回复长度作为优化阶段的诊断指标
为理解上述动力学的内在机制,研究者同步追踪了模型回复长度(response length)在训练过程中的变化。结果显示,回复长度呈现”先升后降”的轨迹:训练初期急剧攀升,随后逐渐回落并趋于稳定。
这一现象与性能变化存在对应关系:回复较长的checkpoint往往对应较弱的性能表现,而回复趋于精炼时性能也随之恢复。研究者对此的解释是:在长思维链SFT的早期阶段,模型首先习得的是一种显著的表层模式——生成冗长的类思考轨迹,而尚未可靠地习得更精细的推理模式(如问题分解、回溯、自我验证等)。这种浅层模仿既限制了推理任务的迁移,也因冗长输出和偶发的格式错误而影响指令遵循等通用能力。随着优化的持续,模型逐渐习得更具迁移性的程序化模式和更精炼的语言风格,表现为更短、更有针对性的输出以及更强的跨领域泛化。
这一点给我们带来的启示是:回复长度可作为长思维链SFT优化进程的粗粒度诊断指标。当回复长度仍在显著缩短时,即使分布内任务的性能已趋于合理,模型通常也尚未完成充分优化。
1.3 重复曝光优于单次遍历
长思维链数据的拟合难度引出一个实践问题:在固定的计算预算下,是应在小数据集上多轮训练,还是在大数据集上单轮遍历?
研究者设计了严格的对照实验:固定总梯度更新步数为640步,比较三种设定:设定1(20k样本,batch size 256,8 epochs)、设定2(2.5k样本,batch size 32,8 epochs)、设定3(20k样本,batch size 32,1 epoch)。其中设定2与设定3的训练预算完全相同,但曝光模式不同(8轮重复 vs. 1轮遍历)。
实验结果表明,设定2在多数基准上显著优于设定3,而设定1在固定epoch和步数的条件下进一步优于设定2。这说明在较少的训练预算下,重复曝光比单次遍历更为有效,而提升总数据量在重复曝光的基础上仍能提供额外增益。
1.4 过拟合的识别与边界
上述结果提示,在长思维链SFT中,欠拟合信号比过拟合更为常见。为厘清过拟合的边界条件,研究者在Qwen3-14B-Base上进行了激进训练策略的压力测试,包括延长训练轮次至16 epochs、移除学习率衰减、提升学习率至1e-4等。结果显示,显著的过拟合症状仅在最激进的条件组合下出现(高学习率 + 无学习率衰减 + 长训练轮次),通常伴随广泛的性能下降和回复长度的反弹。
02
训练数据:质量与结构的双重作用
2.1 数据质量的影响
研究者构建了四种数据配置进行对比:
Math-CoT-20k:默认数据集,包含长思维链回复
Math-NoCoT-20k:移除思维链,仅保留最终的分步总结和答案
NuminaMath-20k:来自NuminaMath-1.5的人工编写解答,无长思维链,质量参差不齐(常包含跳步和不清晰的解释)
Countdown-CoT-20k:基于简单算术游戏Countdown的长思维链数据
实验结果揭示了数据质量的关键作用:NuminaMath数据不仅对分布内任务提升有限,更导致OOD泛化能力的广泛退化,且在整个训练过程中几乎无法触发”先降后升”的恢复动态。低质量数据可能导致对SFT泛化能力的严重低估。
2.2 长思维链的作用
对比Math-CoT-20k与Math-NoCoT-20k(两者共享相同的query和最终解答,仅前者包含探索性思考过程)可以隔离长思维链的效果。结果表明:长思维链监督在推理密集型任务上带来更强的泛化,尤其在数学推理任务上优势明显。在OOD推理任务上,这一趋势在大模型上更为显著,而在较小的Qwen3-8B上收益相对较弱。
2.3 程序化泛化:来自Countdown的证据
Countdown数据集提供了一个独特的实验窗口。该游戏要求模型通过对给定的数字进行四则运算,来达到目标数字。其回复轨迹包含分解、回溯、验证等结构化探索模式,但不包含任何显式的领域知识。
实验结果颇具启发性:仅凭Countdown数据,Qwen3模型在推理任务上的表现甚至超过了Math-NoCoT-20k数据,尽管Countdown的内容范围极其狭窄。这一发现有力地表明,推理程序的结构(procedural patterns)而非领域内容,可能是跨领域泛化的关键驱动因素。
然而,这种程序化泛化并非普适:对于InternLM2.5-20B,Countdown仅带来边际收益,提示程序化泛化的有效性同样依赖于基模型的能力。这一点将在下一节详述。
03
模型能力:泛化的必要条件
3.1 能力依赖的泛化轨迹
研究者在严格控制数据与训练协议的条件下,横向对比了Qwen3系列不同规模的模型(1.7B、4B、8B、14B)。结果呈现出清晰的能力依赖趋势:
14B模型展现出典型的”先降后升”轨迹,最终在各领域获得广泛收益
8B和4B模型同样出现恢复阶段,但改善幅度较小
1.7B模型在所有基准上的收益都极其有限甚至为负,即使在晚期检查点也是如此
这一模式表明,优化充分和数据高质量并不足以保证泛化,模型必须具备足够的能力来内化可迁移的推理模式。
回复长度的动态进一步印证了上述解释:小模型在延长训练后仍维持较长的回复长度,而大模型的回复长度收缩更快并稳定在更低水平。结合第一节的分析,持续处于 “冗长回复”阶段的模型可能尚未内化真正的推理模式。小模型更容易滞留在这一阶段,反映出有限的能力难以支撑更深层的学习。
3.2 Token级别的分析
为进一步理解能力差异的微观机制,研究者分析了14B与1.7B模型在训练数据上的token级对数概率差异。结果揭示了一个显著模式:14B模型的优势集中于推理转折词——therefore、alternatively、wait、however等。这些词汇标志着模型切换推理策略、自我纠正、回溯或反思中间结果的时刻,是思维链推理的结构骨架。
相比之下,1.7B模型在局部数学计算模式的学习上表现尚可,但在把握何时重新考虑、何时尝试另一种方法、何时验证这些高层次推理流程上存在明显短板。
04
不对称泛化:推理提升与安全退化的并存
4.1 安全性能的系统性退化
研究的最后部分揭示了长思维链SFT的一个重要副作用:推理能力的泛化伴随着安全性能的退化。
在HEx-PHI安全基准上的评估显示,经长思维链数据(Math-CoT-20k)训练后,三个基模型的攻击成功率(ASR)均大幅上升。作为对照,无思维链数据(Math-NoCoT-20k)训练后的安全退化程度则小得多。这一对比表明安全退化更多地与长思维链中的程序化推理模式相关,而非数学内容本身。
4.2 自我合理化机制
对具体案例的分析揭示了安全退化的内在机制。基模型在面对有害请求时通常直接拒绝;而经长思维链SFT后,模型会在思考过程中进行自我合理化,例如假设 “这可能是为了网络安全课程的教育目的”。研究者推测,这种现象本身也可视为一种 “泛化”:长思维链SFT强化了模型 “探索替代方案、寻找可行路径、克服障碍”的持久问题求解先验。当面对有害请求时,拒绝策略本身成为需要克服的障碍,而延长的推理过程则提供了绕过安全护栏的空间。
05
结论与讨论
本研究系统性地表明,推理SFT的跨领域泛化能力是条件性的,而非先天缺失的。强基座在低质量数据下仍可能泛化失败;高质量数据在欠优化条件下可能表现平平;弱模型在高质量数据的长训练下也仅能获得边际收益。一个更具建设性的问题不是 “SFT是否泛化”,而是 “在什么条件下泛化,代价是什么”。
这一相互依赖性对当前 “孤立测试单一因素”的研究范式提出了挑战,提示未来的工作应将模型、数据、算法与训练策略作为整体进行联合优化。
参考文献
Chu et al. SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training. ICML, 2025.
Huan et al. Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning. Arxiv 2507.00432
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
热门跟贴