本篇论文针对业界普遍认为监督微调仅具备记忆能力、强化学习才可实现泛化的固有认知展开反思。依托控制变量实验证实,监督微调并非天生缺失跨领域泛化性,其泛化效果受优化程度、数据特质与基础模型性能共同影响,过往相关否定结论多由实验条件局限导致,并非该训练范式本身存在本质缺陷。

打开网易新闻 查看精彩图片

论文标题: Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability 论文链接: https://arxiv.org/abs/2604.06628 Github链接:https://github.com/Nebularaid2000/rethink_sft_generalization

一、引言

随着大语言模型后训练(Post-training)技术的飞速演进,强化学习(RL)在提升模型复杂推理能力方面的卓越表现备受瞩目。

在此背景下,一个广为流传的观点是 “SFT(监督微调)仅能记忆,而 RL(强化学习)带来泛化”。这一论断源于部分合成任务实验及后续研究的佐证,并在一定程度上主导了学术界对两类训练范式的认知。

然而,“SFT 的泛化能力差”是否是一个绝对的结论?

近期,来自上海人工智能实验室、上海交通大学与中国科学技术大学的研究团队发表了题为《Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability》的工作,通过系统性的控制变量实验揭示了上述观点的局限性。

该研究的核心结论是:SFT 的跨领域泛化能力并非天然缺失,而是一种受多重因素制约的条件属性

具体而言,泛化表现由优化充分度、数据质量与结构、基模型能力三个维度共同决定。此前部分研究得出的 “SFT 不泛化”结论,可能源于实验设定的局限,而非 SFT 目标函数本身的固有缺陷。

打开网易新闻 查看精彩图片

二、发现一:优化不充分可能是“不泛化”假象的根源 2.1 短训练轮次下的现象复现

研究团队首先复现了部分相关工作发现的现象:使用 2 万条经过验证的高质量长思维链(Long-CoT)数学数据,对 Qwen3-14B-Base 模型进行单轮(1 epoch)微调。

结果与先前研究一致:模型在同分布数学任务(如 AIME)上表现显著提升,但在分布外任务(如代码生成、科学推理)上增益有限,甚至在指令遵循等通用能力评测上出现退化。

打开网易新闻 查看精彩图片

2.2 延长训练后的“先降后升”模式

当训练周期延长至 8 个 epoch 时,情况发生了实质性变化。

研究观察到一种显著的“先降后升”(Dip-and-Recovery)动态模式:在训练早期,分布外任务的性能出现下滑;随着训练推进,性能逐步回升并最终超越基模型,然后继续上升。

打开网易新闻 查看精彩图片

2.3 回复长度作为优化阶段的诊断指标

进一步分析发现,模型输出的回复长度与性能变化存在高度关联。训练初期,回复长度急剧增长,恰与性能低谷期重合;随着训练深入,回复长度逐渐回落趋于精炼,同时跨领域性能开始恢复。

研究者对此的解释是:在长思维链 SFT 的早期阶段,模型首先捕获的是数据中“冗长输出”这一表面特征,尚未真正习得问题分解、回溯验证等深层推理模式。此时的冗长输出反而干扰了指令遵循等能力。

随着优化的深入,模型逐步内化了可迁移的程序化推理模式,输出变得更加精练有效。

因此,回复长度可作为优化进程的粗粒度诊断指标:若输出仍在持续缩短,往往表明优化尚未充分完成

2.4 重复曝光优于单次遍历

在控制总梯度更新步数(640 步)的对比实验中,研究发现“2.5k 数据训练 8 轮”的效果全面优于“20k 数据训练 1 轮”。

打开网易新闻 查看精彩图片

三、发现二:数据质量与结构是泛化的关键变量 3.1 低质量数据的负面影响

研究引入 NuminaMath 数据集作为对比。该数据集包含传统的简短解答,质量参差不齐(比如包含大量跳步)且缺乏长思维链结构。

实验结果显示,使用此类低质量数据进行训练,不仅对同领域数学任务的提升有限,更导致分布外泛化能力的显著下降,且在整个训练过程中未能触发“先降后升”的恢复机制。

3.2 程序化推理模式的迁移:Countdown实验

为区分“领域知识学习”与“推理模式学习”的贡献,研究团队设计了一组关键实验,使用 Countdown 数据集进行训练。

Countdown 是一个简单的算术凑数游戏,仅涉及基础四则运算,不包含任何高等数学知识,但其解题过程蕴含完整的"尝试-发现错误-回溯-验证"结构。

实验结果表明,仅在 Countdown 数据上进行微调的模型,不仅在 AIME24 等竞赛级数学评测上取得显著提升,在代码生成、科学推理等完全不相关的领域也展现出泛化能力。

这一发现有力地说明:SFT 泛化的核心驱动力并不一定是特定领域知识的记忆,而可能是隐藏于长思维链中的程序化推理模式(如分解、回溯、验证)的学习与迁移

打开网易新闻 查看精彩图片

四、发现三:模型基础能力决定泛化上限 4.1 不同规模模型的对比实验

在严格控制数据与训练配置的条件下,研究对比了 Qwen3 系列中 1.7B 至 14B 不同规模模型的表现:14B模型完整经历“先降后升”过程,最终在多个跨领域任务上获得全面提升,回复长度在训练后期迅速收敛至较低水平。

1.7B模型:在各项任务上增益极其有限,部分任务甚至出现负增长;回复长度在整个训练周期内始终维持在极高水平,未能有效收敛。

打开网易新闻 查看精彩图片

4.2 表层模仿与深层内化的差异

案例分析揭示了能力差异的具体表现:面对复杂数论问题时,1.7B 模型在耗尽大量 Token 后,仍陷入“Let me check 17,Let me check 53...”式的无效循环,本质上仅是对长思维链格式的表层统计模仿。

打开网易新闻 查看精彩图片

五、发现四:泛化的非对称性——推理增强与安全退化并存 5.1 安全性能的下降

研究揭示了一个值得关注的副作用:长思维链 SFT 在提升推理能力的同时,会导致模型安全性的显著下降。

在 HEx-PHI 安全基准测试中,经长思维链训练的模型面对有害指令时的攻击成功率(ASR)大幅上升。作为对照,使用无思维链数据训练的模型则安全性下降幅度较小。

5.2 自我合理化机制

案例分析表明,基模型原本会对有害请求直接输出简短拒绝。

但经过长思维链训练后,模型会在思考过程中进行“自我合理化”——例如推演“这虽然是非法的,但如果假设是网络安全教育场景呢?”,从而绕过自身的安全机制,最终输出带有免责声明的有害内容。

打开网易新闻 查看精彩图片

六、结论

本研究系统表明,“SFT 是否具备泛化能力”并非一个绝对的是非命题。泛化是一种条件属性,其激活与否取决于优化是否充分、数据结构是否具备可迁移的推理模式、以及基模型是否具备足够的能力将这些模式内化。

在任一条件缺失的情况下得出的 “SFT 不泛化”结论,可能是实验设定的产物而非 SFT 的内在局限。

对于大模型训练而言,本研究提示需要将模型选择、数据设计、训练策略置于统一框架下进行协同优化,而非孤立地评判某一训练范式的优劣。

Illustration From IconScout By IconScout Store

报名截止至5月31日(周日)20点,席位有限~

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

yimingzhang@thejiangmen.com

添加工作人员微信(aceyiming投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

打开网易新闻 查看精彩图片

点击右上角,把文章分享到朋友圈