吃透大模型SFT底层机理：终结实践争议，规避无效算力|sft底层机理|信号|大模型|实验|拟合|神经网络

本文第一作者为张俊鹏，张拳石老师的博士生。

一、SFT的争议

长期以来，监督微调（Supervised Fine-Tuning，SFT）一直是深度神经网络中最常用的模型适配手段。在中小规模的传统神经网络中，SFT 通常能够稳定提升下游任务表现。

然而，随着模型规模扩大到大语言模型（Large Language Models，LLMs），SFT 的作用开始变得更有争议：一方面，许多工作认为 SFT 是提升 LLM 指令遵循能力、任务适配能力和回答可用性的关键步骤；另一方面，也有研究指出，当 SFT 数据集中在较窄任务分布、且样本高度同源或同质化时，模型可能很快过度拟合微调数据，削弱原本的泛化能力，甚至带来能力退化和灾难性遗忘。

换言之，在 LLM 时代，SFT 不再是一个「只要做了就一定有收益」的标准流程，它到底是在增强能力，还是在损伤能力，并没有一个简单答案。如果数据足够多样、覆盖足够广，它可以被视为预训练的延续；但如果数据分布狭窄、重复度高，SFT 就可能从能力适配迅速滑向过拟合。

二、结论写在前面：

交互机理层面的统一解答和指引

为了在「基座模型上 SFT」和一般意义的「继续监督训练基座模型」之间区别出严格的楚河汉界，我们这里仅仅讨论「在高度同源、同质化数据上的 SFT」。我们试图从底层机理来回答一个更本质的问题：

（1）有没有一个可验证的指标来指出哪些 LLMs 适用于 SFT？

（2）SFT 的适用时间窗严格是多久？

（3）最多可以容纳多少样本的后训练？

上述答案对于不同的 LLMs 都是不一样的，需要一个可验证的解释指标，对每个 LLM 给出一个严格且精确的解答。

本文给出的核心答案是：在高度同源、同质化数据上的 SFT 的确有效，但它有效的时间窗口通常非常短，最适宜的训练窗口时长可以在交互机理层面严格确定（随着数据多样性的增加，等价于减缓了每个具体数据类型上的训练，因此上述训练的窗口期也会被相应地拉长）。

论文：Reconciling Contradictory Views on the Effectiveness of SFT in LLMs: An Interaction Perspective
论文地址：https://arxiv.org/abs/2605.17967
作者：Junpeng Zhang, Lei Cheng, Guoxi Zhang, Hua Cai, Qing Xu, and Quanshi Zhang

可以用一个更直观的比喻来理解：SFT 有点像涮火锅里的肉片。刚下锅时，短时间加热可以让肉变得更好吃；但如果一直涮下去，肉很快就会变老。SFT 也是类似的：在训练早期，它能快速去除模型中的噪声式推理模式；但如果继续训练，模型往往会重新学到大量新的噪声模式，最终进入过拟合阶段。

图 1：（上图）LLM 中复杂的推理模式可以由逻辑模型中少量交互机理（词组关系）进行可靠的表示。（下图）SFT 首先进入一个短暂的去噪阶段，移除那些复杂的、不可泛化、且正负效应相互抵消的噪声交互机理；随后，在更长的训练阶段中，LLM 又会逐渐重新学习到新的噪声交互，而没有进一步提升测试性能——这本质是一个过拟合过程，虽然这个过程中在 loss gap 上的体现并不明显。

具体来说，如图 1 所示，这个「涮肉式」的有效窗口主要体现在三点：

第一，在高度同源、同质化数据上的 SFT 对 LLM 的主要作用只有去噪（去除不可泛化的交互机理），而无法持续学习大量新的可靠表征；

第二，这个去噪阶段非常短，通常只发生在最开始的几百到一千个 training steps 内；

第三，一旦去噪结束，后续训练会重新引入大量高阶、不可泛化、正负效应相互抵消的噪声交互机理——这是导致最终过拟合的根因。

这一发现也挑战了对 SFT 的传统认知：过去常把 SFT 视为预训练之后的继续学习，认为只要继续投入足够多的数据，模型就能进一步获得任务能力。但本文发现，在特定任务上对 LLM 进行 SFT 时，同质化数据的边际收益可能很快耗尽。如果只是不断增加同源数据，模型并不会持续学到可靠的新交互机理，反而可能在短暂去噪后迅速进入过拟合阶段。

因此，SFT 的关键未必是「喂更多数据」或「训得更久」，而是如何抓住这个短暂的有效窗口，并在模型从「去噪」转向「过拟合」之前及时停止。为此，本文通过交互机理作为诊断信号，用来监控 SFT 过程中推理模式的变化。

图 2：该示例展示了如何使用一个包含少量 AND-OR 交互机理的逻辑模型，来解释 DeepSeek-r1-distill-llama-8B 模型在给定 prompt 下预测目标 token 「transformer」的置信度。例如，「generative」和「pre-trained」之间的一个 AND 交互机理表示二者之间存在「与关系」：当「generative」和「pre-trained」同时出现时，会提高 LLM 生成目标 token 「transformer」的置信度。

三、技术背景：交互机理

直观来说，交互机理可以理解为模型在预测时自动使用的词、token 或短语之间的组合模式。如图 1 所示，给定一个物理相关的输入 prompt =「Isaac Newton’s laws of motion describe the relationship between force, mass, and」，模型可能会在「laws / of / motion」这些词之间建模一个词组关系（与交互）；当这些词同时出现时，该模式会被激活，并提高模型预测「acceleration」这一目标 token 的置信度。换言之，模型并不是孤立地理解每个词，而是会利用多个输入变量之间的组合关系来完成预测。

交互的稀疏性。我们早期研究已经证明，一个神经网络在给定样本上提取出的有效交互机理的数量通常是相对有限的，实践中往往只有几十到一百多个显著交互机理。也就是说，大量潜在交互机理的数值效用接近于 0，真正决定模型输出的只是其中一小部分。

四、可靠的交互机理 vs. 不可靠的交互机理

既然神经网络的输出可以被严格表示为 50-150 个 AND-OR 交互机理的数值效用的和，我们可以进一步量化在大模型决策中，哪些交互机理是可靠的表征，哪些交互机理是不可靠的表征。本文从三个维度衡量交互的表征质量：复杂度、泛化性和正负效应抵消程度。简单来说，可靠的交互机理往往更简单、更可泛化，并且能稳定地支持模型预测；而噪声交互机理往往更复杂、不可泛化，并且正负效应大量相互抵消。

第一，交互机理的阶数，也就是复杂度。低阶交互机理往往表示更简单、更可靠的推理模式，而高阶交互机理则更容易对应复杂、不稳定的过拟合模式。

这里的「阶数」指的是一个交互机理涉及多少个输入变量。Oder(S) = |S|。例如，一个只涉及两个词的交互机理是低阶交互机理；而一个同时涉及多个词、复杂组合的交互机理则是高阶的交互机理。低阶交互机理通常更稳定，也更容易泛化；相反，如果某类交互机理主要集中在高阶部分，它们就更可能是模型对训练数据中偶然模式的拟合，而不是可靠的推理规则。

第二，交互机理的泛化性。同时被不同大模型所共享的交互机理是可泛化的交互机理。

如果某个交互机理不只出现在一个模型中，而是能在不同架构的 LLM 中被稳定提取出来，并且它对目标 token 的影响方向一致，那么这个交互机理就更可能对应一种可复用、可迁移的推理模式，因而被认为是泛化交互机理。相反，如果某个交互机理只出现在单个模型中，难以在其他模型中复现，那么它更可能是模型特有的偶然模式或噪声模式。我们用以下指标来衡量交互机理的泛化性：

第三，正负交互效用是否相互抵消。未被抵消的交互效用越多，说明这些交互机理越可能稳定支持模型预测；反之，如果交互机理效应大量正负抵消，则更像噪声模式。

具体来说，一个交互机理可以提高目标 token 的预测分数，也可以降低目标 token 的预测分数。如果一组交互机理中，正向贡献和负向贡献几乎彼此抵消，那么它们对最终输出的有效贡献就很小。本文用未抵消效应比例来衡量这一点：比例越高，说明交互机理对模型预测的贡献越一致；比例越低，则说明这些交互机理更可能只是噪声模式。具体我们用以下公式来衡量未抵消效用的比例：

图 3：SFT 过程中，新出现的交互机理、被删除的交互机理以及被保留的交互机理的分布变化。在 SFT 非常短暂的去噪阶段，LLM 会删除大量正负效应相互抵消的交互机理，同时仅保留少量低阶交互机理。随后，在更长的过拟合阶段中，大量高阶且正负效应相互抵消的交互机理会再次逐渐出现。更多 LLM 上的实验结果请见论文附录。

图 4：SFT 过程中，新出现的交互机理、被删除的交互机理和被保留的交互机理的表征质量变化。这里使用泛化性 (γ) 和未抵消效应比例 (ρ) 来衡量交互机理的表征质量。新出现的交互机理只在短暂的去噪阶段表现出较高质量（图中的绿色区域），但在后续阶段会变得更难泛化，并且正负效应抵消更加明显（图中的紫色区域）。被删除的交互机理在整个 SFT 过程中这两个指标都较低，而被保留的交互机理在噪声交互机理被移除后质量得到提升。更多 LLM 上的实验结果见论文附录。

五、SFT 的不同阶段

如何影响交互机理的可靠性

为了刻画 SFT 如何改变模型内部的推理模式，论文将交互机理分为三类：被删除的交互机理、被保留的交互机理、和新出现的交互机理。

本文发现SFT 的主要收益来自早期去噪，而不是持续学习大量新的可靠交互机理。在训练初期，模型会快速删除一批不稳定、不可泛化的噪声交互机理；但这个阶段非常短。一旦越过这个窗口，继续训练反而会引入大量新的噪声交互，使模型进入过拟合阶段。

1. 被删除的交互机理

被删除的交互机理，是指模型在 SFT 前已经编码、但在 SFT 过程中被移除的交互机理。

如图 3 所示，这类交互机理的删除几乎只发生在 SFT 早期。进入后续训练阶段后，模型基本不再继续删除交互机理，说明 SFT 的去噪作用是一个非常短暂的过程。

更重要的是，如图 4 所示，被删除的交互机理大多是噪声：它们通常正负效应大量抵消，对目标 token 预测贡献很小；阶数更高，模式更复杂；泛化性也很弱，几乎无法在不同架构的 LLM 中稳定出现。因此，SFT 早期的收益很大程度上来自清除这些噪声模式，而不是从零开始学习大量新能力。

2. 被保留的交互机理

被保留的交互机理，是指模型在 SFT 前已经拥有，并在 SFT 过程中一直保留下来的交互机理。

如图 3 所示，这类交互机理通常训练早期基本稳定（如前 1000 个 training steps）；之后，变化的主要不是「哪些交互被保留」，而是这些交互的强度继续被增强。

如图 4 所示，这些被保留的交互机理通常质量更高：它们大多是低阶的，结构更简单；跨模型泛化能力更强；正负效应抵消更弱。进一步实验显示，仅依靠这部分交互机理，就可以较好支撑模型对目标词元的预测。也就是说，它们构成了 LLM 推理的核心「骨架」。这说明，SFT 的重要作用不是从零教会模型新能力，而是筛选并强化模型已有的可靠能力。

3. 新出现的交互机理

新出现的交互机理，是指模型在 SFT 过程中新学到的交互机理。

如图 3、图 4 所示，新出现的交互机理也呈现明显的两阶段变化：早期只出现少量新交互机理，且质量相对较高；后期则大量涌现新的交互机理，但这些交互大多更复杂、更难泛化，正负效应抵消也更明显，更像噪声模式。

因此，SFT 后期的过拟合是由于模型开始不断学习新的、不可靠的交互机理。这些信号往往能在训练/测试损失差距明显扩大之前出现，因此可以作为过拟合的早期预警，并为及时停止训练提供依据。

六、可验证的解释性指标改造工业应用

本研究让我们重新理解了 SFT 的使用方式。对于大语言模型来说，SFT 不应被简单视为「多训一点总会更好」的后训练流程。更合理的做法是，将交互机理作为一个可验证的解释性指标，在训练早期密切监控模型内部表示的变化，尤其是交互机理的质量变化，一旦发现模型开始大量学习新的高阶、不可泛化、正负抵消的交互机理，就应及时停止训练，从而规避大量的无效算力的浪费。图 5 结果显示，可以节省 30%-50% 以上的算力。

图 5：交互机理可提前预警 SFT 过拟合，并减少无效训练算力。左图展示了训练过程中所有交互机理的泛化性变化：在 SFT 早期，交互机理质量快速提升，对应模型的短暂去噪阶段；随后，泛化性开始下降，表明模型内部已经开始出现不可靠的交互机理。右图进一步对比了交互预警点与 loss 预警点：交互机理质量的恶化明显早于训练损失与测试损失 gap 的扩大。因此，基于交互机理的质量变化进行 early stopping，可以在 loss 明显反映过拟合之前提前停止训练，从而节省约 30%–50% 以上的训练算力。

从实践角度看，这意味着三个重要启示：

early stopping 对 SFT 尤其关键。SFT 的有效阶段可能非常短，过长训练反而会引入过拟合。
SFT 数据规模不是唯一关键，数据多样性更重要。如果数据高度同质化，继续增加数据量未必能带来能力提升，反而可能放大任务特定偏差。
交互机理可以作为诊断 SFT 的内部信号。相比只看 loss 或 benchmark，交互机理能更细粒度地揭示模型是在去噪，还是已经开始学习新的噪声模式。

用一句话概括本文：SFT 是有效的，但它往往更像一次短暂的「去噪手术」，而不是越久越好的能力灌输过程，需要阻断无效算力的浪费。