重新审视SFT的泛化能力：优化动态、数据与模型能力的条件性分析|拟合|推理|新论文|条件性|算法|轨迹

SFT的泛化并非算法本身的属性，而是同时依赖于优化、数据、基模型能力的条件属性。

在大模型后训练领域，一个被广泛流传的叙事是：“监督微调（SFT）倾向于记忆，而强化学习（RL）实现泛化。” 这一观点自Chu et al. 在合成任务上的实证研究后逐渐成为主流认知，并在后续的数学推理等场景中也被验证（Huan et al.）。这一叙事极大地影响了学术界对后训练方法的认识，促使研究者将注意力集中于理解RL相对于SFT的优势，或是如何改进SFT的目标函数。

然而，上海人工智能实验室、上海交通大学、中国科学技术大学联合发布的研究《Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability》对这一叙事的严谨性提出了质疑。该研究指出，“SFT是否泛化”这一问题本身是欠定义的（under-specified）。泛化并非SFT训练目标的固有属性，而是一个条件性现象，受到优化动态（optimization dynamics）、训练数据（training data）以及基模型能力（model capability）三个因素的共同塑造。

本文将梳理该论文的核心发现，为相关研究者和工程师提供完整的认知框架。

论文信息

论文标题：Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

作者：Qihan Ren, Peng Wang, Ruikun Cai, Shuai Shao, Dadi Guo, Yuejin Xie, Yafu Li, Quanshi Zhang, Xia Hu, Jing Shao, Dongrui Liu

机构：上海人工智能实验室、上海交通大学、中国科学技术大学

arxiv链接：https://arxiv.org/abs/2604.06628

github链接：

https://github.com/Nebularaid2000/rethink_sft_generalization

huggingface链接：

https://huggingface.co/collections/jasonrqh/rethink-sft-generalization

优化动态：表观的 “不泛化”可能源于优化不充分

1.1 现象复现与扩展观察

研究团队首先在较短训练轮次的设定下复现了先前研究的结论：使用20k包含长思维链的数学数据对Qwen3-14B-Base进行1个epoch的微调后，模型在分布内（ID）数学任务上获得了显著提升（如AIME24提升29.7%），但在分布外（OOD）任务上的收益有限甚至为负（科学推理仅提升2.9%，指令遵循降低9.8%）。这一结果与Huan et al. 的发现高度一致。

然而，当训练轮次延长至8个epoch并持续监控性能轨迹时，研究者观察到了一个关键特征：跨领域性能呈现 “先降后升”（dip-and-recovery）的非单调轨迹。具体而言，在训练初期，OOD任务性能会经历明显下降；但随着训练的持续深入，性能慢慢恢复并最终超越基模型的初始水平。

这一现象在Qwen3-14B-Base、Qwen3-8B-Base、InternLM2.5-20B-Base等多个模型上均得到验证，且在使用DeepSeek-R1生成的数据时同样成立，表明该动力学特征并非特定模型或数据源的产物。

1.2 回复长度作为优化阶段的诊断指标

为理解上述动力学的内在机制，研究者同步追踪了模型回复长度（response length）在训练过程中的变化。结果显示，回复长度呈现”先升后降”的轨迹：训练初期急剧攀升，随后逐渐回落并趋于稳定。

这一现象与性能变化存在对应关系：回复较长的checkpoint往往对应较弱的性能表现，而回复趋于精炼时性能也随之恢复。研究者对此的解释是：在长思维链SFT的早期阶段，模型首先习得的是一种显著的表层模式——生成冗长的类思考轨迹，而尚未可靠地习得更精细的推理模式（如问题分解、回溯、自我验证等）。这种浅层模仿既限制了推理任务的迁移，也因冗长输出和偶发的格式错误而影响指令遵循等通用能力。随着优化的持续，模型逐渐习得更具迁移性的程序化模式和更精炼的语言风格，表现为更短、更有针对性的输出以及更强的跨领域泛化。

这一点给我们带来的启示是：回复长度可作为长思维链SFT优化进程的粗粒度诊断指标。当回复长度仍在显著缩短时，即使分布内任务的性能已趋于合理，模型通常也尚未完成充分优化。

1.3 重复曝光优于单次遍历

长思维链数据的拟合难度引出一个实践问题：在固定的计算预算下，是应在小数据集上多轮训练，还是在大数据集上单轮遍历？

研究者设计了严格的对照实验：固定总梯度更新步数为640步，比较三种设定：设定1（20k样本，batch size 256，8 epochs）、设定2（2.5k样本，batch size 32，8 epochs）、设定3（20k样本，batch size 32，1 epoch）。其中设定2与设定3的训练预算完全相同，但曝光模式不同（8轮重复 vs. 1轮遍历）。

实验结果表明，设定2在多数基准上显著优于设定3，而设定1在固定epoch和步数的条件下进一步优于设定2。这说明在较少的训练预算下，重复曝光比单次遍历更为有效，而提升总数据量在重复曝光的基础上仍能提供额外增益。

1.4 过拟合的识别与边界

上述结果提示，在长思维链SFT中，欠拟合信号比过拟合更为常见。为厘清过拟合的边界条件，研究者在Qwen3-14B-Base上进行了激进训练策略的压力测试，包括延长训练轮次至16 epochs、移除学习率衰减、提升学习率至1e-4等。结果显示，显著的过拟合症状仅在最激进的条件组合下出现（高学习率 + 无学习率衰减 + 长训练轮次），通常伴随广泛的性能下降和回复长度的反弹。

训练数据：质量与结构的双重作用

2.1 数据质量的影响

研究者构建了四种数据配置进行对比：

Math-CoT-20k：默认数据集，包含长思维链回复

Math-NoCoT-20k：移除思维链，仅保留最终的分步总结和答案

NuminaMath-20k：来自NuminaMath-1.5的人工编写解答，无长思维链，质量参差不齐（常包含跳步和不清晰的解释）

Countdown-CoT-20k：基于简单算术游戏Countdown的长思维链数据

实验结果揭示了数据质量的关键作用：NuminaMath数据不仅对分布内任务提升有限，更导致OOD泛化能力的广泛退化，且在整个训练过程中几乎无法触发”先降后升”的恢复动态。低质量数据可能导致对SFT泛化能力的严重低估。

2.2 长思维链的作用

对比Math-CoT-20k与Math-NoCoT-20k（两者共享相同的query和最终解答，仅前者包含探索性思考过程）可以隔离长思维链的效果。结果表明：长思维链监督在推理密集型任务上带来更强的泛化，尤其在数学推理任务上优势明显。在OOD推理任务上，这一趋势在大模型上更为显著，而在较小的Qwen3-8B上收益相对较弱。

2.3 程序化泛化：来自Countdown的证据

Countdown数据集提供了一个独特的实验窗口。该游戏要求模型通过对给定的数字进行四则运算，来达到目标数字。其回复轨迹包含分解、回溯、验证等结构化探索模式，但不包含任何显式的领域知识。

实验结果颇具启发性：仅凭Countdown数据，Qwen3模型在推理任务上的表现甚至超过了Math-NoCoT-20k数据，尽管Countdown的内容范围极其狭窄。这一发现有力地表明，推理程序的结构（procedural patterns）而非领域内容，可能是跨领域泛化的关键驱动因素。

然而，这种程序化泛化并非普适：对于InternLM2.5-20B，Countdown仅带来边际收益，提示程序化泛化的有效性同样依赖于基模型的能力。这一点将在下一节详述。

模型能力：泛化的必要条件

3.1 能力依赖的泛化轨迹

研究者在严格控制数据与训练协议的条件下，横向对比了Qwen3系列不同规模的模型（1.7B、4B、8B、14B）。结果呈现出清晰的能力依赖趋势：

14B模型展现出典型的”先降后升”轨迹，最终在各领域获得广泛收益

8B和4B模型同样出现恢复阶段，但改善幅度较小

1.7B模型在所有基准上的收益都极其有限甚至为负，即使在晚期检查点也是如此

这一模式表明，优化充分和数据高质量并不足以保证泛化，模型必须具备足够的能力来内化可迁移的推理模式。

回复长度的动态进一步印证了上述解释：小模型在延长训练后仍维持较长的回复长度，而大模型的回复长度收缩更快并稳定在更低水平。结合第一节的分析，持续处于 “冗长回复”阶段的模型可能尚未内化真正的推理模式。小模型更容易滞留在这一阶段，反映出有限的能力难以支撑更深层的学习。

3.2 Token级别的分析

为进一步理解能力差异的微观机制，研究者分析了14B与1.7B模型在训练数据上的token级对数概率差异。结果揭示了一个显著模式：14B模型的优势集中于推理转折词——therefore、alternatively、wait、however等。这些词汇标志着模型切换推理策略、自我纠正、回溯或反思中间结果的时刻，是思维链推理的结构骨架。

相比之下，1.7B模型在局部数学计算模式的学习上表现尚可，但在把握何时重新考虑、何时尝试另一种方法、何时验证这些高层次推理流程上存在明显短板。

不对称泛化：推理提升与安全退化的并存

4.1 安全性能的系统性退化

研究的最后部分揭示了长思维链SFT的一个重要副作用：推理能力的泛化伴随着安全性能的退化。

在HEx-PHI安全基准上的评估显示，经长思维链数据（Math-CoT-20k）训练后，三个基模型的攻击成功率（ASR）均大幅上升。作为对照，无思维链数据（Math-NoCoT-20k）训练后的安全退化程度则小得多。这一对比表明安全退化更多地与长思维链中的程序化推理模式相关，而非数学内容本身。

4.2 自我合理化机制

对具体案例的分析揭示了安全退化的内在机制。基模型在面对有害请求时通常直接拒绝；而经长思维链SFT后，模型会在思考过程中进行自我合理化，例如假设 “这可能是为了网络安全课程的教育目的”。研究者推测，这种现象本身也可视为一种 “泛化”：长思维链SFT强化了模型 “探索替代方案、寻找可行路径、克服障碍”的持久问题求解先验。当面对有害请求时，拒绝策略本身成为需要克服的障碍，而延长的推理过程则提供了绕过安全护栏的空间。