RL才会泛化？上海AI Lab系统研究：SFT也能学会跨域推理|sft|上海市|实验|推理|数学|新论文|系统研究

本篇论文针对业界普遍认为监督微调仅具备记忆能力、强化学习才可实现泛化的固有认知展开反思。依托控制变量实验证实，监督微调并非天生缺失跨领域泛化性，其泛化效果受优化程度、数据特质与基础模型性能共同影响，过往相关否定结论多由实验条件局限导致，并非该训练范式本身存在本质缺陷。

论文标题： Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability 论文链接： https://arxiv.org/abs/2604.06628 Github链接：https://github.com/Nebularaid2000/rethink_sft_generalization

一、引言

随着大语言模型后训练（Post-training）技术的飞速演进，强化学习（RL）在提升模型复杂推理能力方面的卓越表现备受瞩目。

在此背景下，一个广为流传的观点是 “SFT（监督微调）仅能记忆，而 RL（强化学习）带来泛化”。这一论断源于部分合成任务实验及后续研究的佐证，并在一定程度上主导了学术界对两类训练范式的认知。

然而，“SFT 的泛化能力差”是否是一个绝对的结论？

近期，来自上海人工智能实验室、上海交通大学与中国科学技术大学的研究团队发表了题为《Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability》的工作，通过系统性的控制变量实验揭示了上述观点的局限性。

该研究的核心结论是：SFT 的跨领域泛化能力并非天然缺失，而是一种受多重因素制约的条件属性。

具体而言，泛化表现由优化充分度、数据质量与结构、基模型能力三个维度共同决定。此前部分研究得出的 “SFT 不泛化”结论，可能源于实验设定的局限，而非 SFT 目标函数本身的固有缺陷。

二、发现一：优化不充分可能是“不泛化”假象的根源 2.1 短训练轮次下的现象复现

研究团队首先复现了部分相关工作发现的现象：使用 2 万条经过验证的高质量长思维链（Long-CoT）数学数据，对 Qwen3-14B-Base 模型进行单轮（1 epoch）微调。

结果与先前研究一致：模型在同分布数学任务（如 AIME）上表现显著提升，但在分布外任务（如代码生成、科学推理）上增益有限，甚至在指令遵循等通用能力评测上出现退化。

2.2 延长训练后的“先降后升”模式

当训练周期延长至 8 个 epoch 时，情况发生了实质性变化。

研究观察到一种显著的“先降后升”（Dip-and-Recovery）动态模式：在训练早期，分布外任务的性能出现下滑；随着训练推进，性能逐步回升并最终超越基模型，然后继续上升。

2.3 回复长度作为优化阶段的诊断指标

进一步分析发现，模型输出的回复长度与性能变化存在高度关联。训练初期，回复长度急剧增长，恰与性能低谷期重合；随着训练深入，回复长度逐渐回落趋于精炼，同时跨领域性能开始恢复。

研究者对此的解释是：在长思维链 SFT 的早期阶段，模型首先捕获的是数据中“冗长输出”这一表面特征，尚未真正习得问题分解、回溯验证等深层推理模式。此时的冗长输出反而干扰了指令遵循等能力。

随着优化的深入，模型逐步内化了可迁移的程序化推理模式，输出变得更加精练有效。

因此，回复长度可作为优化进程的粗粒度诊断指标：若输出仍在持续缩短，往往表明优化尚未充分完成。

2.4 重复曝光优于单次遍历

在控制总梯度更新步数（640 步）的对比实验中，研究发现“2.5k 数据训练 8 轮”的效果全面优于“20k 数据训练 1 轮”。

三、发现二：数据质量与结构是泛化的关键变量 3.1 低质量数据的负面影响

研究引入 NuminaMath 数据集作为对比。该数据集包含传统的简短解答，质量参差不齐（比如包含大量跳步）且缺乏长思维链结构。

实验结果显示，使用此类低质量数据进行训练，不仅对同领域数学任务的提升有限，更导致分布外泛化能力的显著下降，且在整个训练过程中未能触发“先降后升”的恢复机制。

3.2 程序化推理模式的迁移：Countdown实验

为区分“领域知识学习”与“推理模式学习”的贡献，研究团队设计了一组关键实验，使用 Countdown 数据集进行训练。

Countdown 是一个简单的算术凑数游戏，仅涉及基础四则运算，不包含任何高等数学知识，但其解题过程蕴含完整的"尝试-发现错误-回溯-验证"结构。

实验结果表明，仅在 Countdown 数据上进行微调的模型，不仅在 AIME24 等竞赛级数学评测上取得显著提升，在代码生成、科学推理等完全不相关的领域也展现出泛化能力。

这一发现有力地说明：SFT 泛化的核心驱动力并不一定是特定领域知识的记忆，而可能是隐藏于长思维链中的程序化推理模式（如分解、回溯、验证）的学习与迁移。

四、发现三：模型基础能力决定泛化上限 4.1 不同规模模型的对比实验

在严格控制数据与训练配置的条件下，研究对比了 Qwen3 系列中 1.7B 至 14B 不同规模模型的表现：14B模型完整经历“先降后升”过程，最终在多个跨领域任务上获得全面提升，回复长度在训练后期迅速收敛至较低水平。

而1.7B模型：在各项任务上增益极其有限，部分任务甚至出现负增长；回复长度在整个训练周期内始终维持在极高水平，未能有效收敛。

4.2 表层模仿与深层内化的差异

案例分析揭示了能力差异的具体表现：面对复杂数论问题时，1.7B 模型在耗尽大量 Token 后，仍陷入“Let me check 17，Let me check 53...”式的无效循环，本质上仅是对长思维链格式的表层统计模仿。

五、发现四：泛化的非对称性——推理增强与安全退化并存 5.1 安全性能的下降

研究揭示了一个值得关注的副作用：长思维链 SFT 在提升推理能力的同时，会导致模型安全性的显著下降。

在 HEx-PHI 安全基准测试中，经长思维链训练的模型面对有害指令时的攻击成功率（ASR）大幅上升。作为对照，使用无思维链数据训练的模型则安全性下降幅度较小。

5.2 自我合理化机制

案例分析表明，基模型原本会对有害请求直接输出简短拒绝。

但经过长思维链训练后，模型会在思考过程中进行“自我合理化”——例如推演“这虽然是非法的，但如果假设是网络安全教育场景呢？”，从而绕过自身的安全机制，最终输出带有免责声明的有害内容。

六、结论

本研究系统表明，“SFT 是否具备泛化能力”并非一个绝对的是非命题。泛化是一种条件属性，其激活与否取决于优化是否充分、数据结构是否具备可迁移的推理模式、以及基模型是否具备足够的能力将这些模式内化。

在任一条件缺失的情况下得出的 “SFT 不泛化”结论，可能是实验设定的产物而非 SFT 的内在局限。

对于大模型训练而言，本研究提示需要将模型选择、数据设计、训练策略置于统一框架下进行协同优化，而非孤立地评判某一训练范式的优劣。

Illustration From IconScout By IconScout Store

报名截止至5月31日(周日）20点，席位有限~

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线700+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

yimingzhang@thejiangmen.com

或添加工作人员微信（aceyiming）投稿，沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。