来源:市场资讯
(来源:PaperWeekly)
即使 SFT(Supervised Fine-Tuning,监督微调)训练已收敛、loss 已平稳、所有超参都调无可调,你的模型在训练集上重新测试——仍然有平均 15.3% 的样本答不对。
这不是过拟合,不是灾难性遗忘,不是数据噪声。这是「不完全学习」。
什么是「不完全学习现象」(ILP)?
做过 SFT 的人都有过这种困惑:训练 loss 已经趋近于零,eval loss 也很漂亮,benchmark 分数涨了 3-5 个点——一切看起来都很完美。
但你随手从训练集里抽几条让模型重新回答,它竟然答错了。你以为是偶然,再多抽几条——发现答错的比例并不低。
这不是你的错觉。腾讯混元与 UNSW 的联合团队在 ACL 2026 上发表的这篇论文,首次对这一现象进行了系统性研究,将其命名为 Incomplete Learning Phenomenon(ILP):训练后模型未能内化部分监督信号的现象。
论文标题:
Why Supervised Fine-Tuning Fails to Learn: A Systematic Study of Incomplete Learning in Large Language Models
收录会议:
ACL 2026
作者单位:
腾讯混元 × UNSW
论文链接:
https://arxiv.org/abs/2604.10079
ILP 到底有多普遍?
核心数据:15.3% ± 2.1%
在 10 个标准 SFT 数据集上,作者通过精心设计的检测协议(后文详述),发现平均有 15.3% ± 2.1% 的训练样本处于未学习状态。这个比例在以下维度上惊人地稳定:
〓 图1:不完全学习现象示意图——微调后在训练集上重新测试,部分样本在 SFT 过程中并未被有效学习。
更令人警醒的是:未学习样本不是随机的。它们系统性地集中在——
涉及罕见实体/低频知识:23.4% 未学习率
需要多步组合推理:19.8% 未学习率
与预训练知识冲突:21.2% 未学习率
简单陈述性知识:8.1% 未学习率(相对较低)
这意味着模型「选择性放弃」的恰好是那些最有价值、最难标注的复杂样本。
为什么这件事极其重要?
3.1 经济账:15%的标注预算可能白花了
医疗、法律、金融等垂直领域的 SFT 数据标注成本极高。如果 15% 的数据模型根本学不会,这 15% 的标注费用就是纯浪费。
3.2 可靠性账:关键场景的不均衡失效
未学习样本不是均匀分布的——它们集中在罕见病诊断、边缘法条适用、长尾金融产品等高价值但低频的场景。这意味着模型在「看似正常」的整体表现下,隐藏着关键场景的系统性盲区。
3.3 评估账:aggregate metrics 是遮羞布
传统 SFT 评估只看 loss 曲线和最终 benchmark 分数。一个模型可以在 85% 的整体准确率下,对固定的 15% 训练样本永远答错——而 loss 曲线完全看不出来。
作者发现了什么?五大根因
本文最核心的贡献是将未学习样本归因到五个可操作的原因:
〓 图3:未学习样本归因框架——横轴为「基模型是否已知」,纵轴为「SFT标签是否正确」。
根因 I 与 II:知识层面的鸿沟
根因 I(知识缺失)是最「绝望」的情况:基模型根本没接触过相关知识,SFT 的有限梯度信号不足以从零构建知识表征。论文的实验表明,单纯增加 SFT 的 epoch 对该类样本仅提升 1-2%。
根因 II(知识冲突)则更「顽固」:模型在预训练阶段形成了强烈的错误信念(比如某个已过时的事实),SFT 虽然给出了正确答案,但预训练的先验分布太强,模型「拒绝改变」。
在 OLMo2-7B 上,通过检索 Dolma 5T token 预训练语料,作者确认:19.3%的 SFT 知识在预训练中根本不存在,14.5% 与预训练知识冲突。仅这两项就覆盖了超过三分之一的不完全学习案例。
根因 III:数据自身的矛盾
SFT 数据中经常存在语义高度相似但标签不一致的样本对。比如两个样本都在问某疾病的潜伏期,一个标注为「3-7 天」,另一个是「1-14 天」。当它们出现在同一 batch 时,梯度方向相反——净梯度接近零,两个样本都学不会。
根因 IV:多任务训练的先后顺序
当 SFT 数据按来源顺序排列(先全部 MedQA,再全部 LegalBench...),模型在后期训练中会「覆盖」早期的学习成果。最严重的情况:前 10% 数据的 ROUGE-L 下降了 29%。
根因 V:简单样本「吃掉」梯度
虽然简单样本的梯度小,但数量多——累积梯度反而更大。难样本数量少但梯度大,却因为样本量不足被平均掉了。
五类针对性解决方案
作者为每种病因设计了针对性的干预策略——注意,不是万能药,每种策略只对特定病因有效:
〓 表1:CPT 前后准确率对比——提升在跨模型规模和领域中均保持稳定。
研究的完整框架
这个框架将 SFT 评估从传统的「平均分思维」推进到了 instance-level 的学习诊断。核心思想是:不再是「模型总体学得不错」,而是「具体哪些样本没学会?为什么?怎么办?」
一个重要的警醒:CPT 是手术刀,不是补药
在 OLMo2-7B 上的实验揭示了一个耐人寻味的现象:CPT 虽然在具体的知识冲突案例上成功纠正了输出(时效性知识、跨文化法律差异、多语言地理实体),但在通用 benchmark(MMLU、BBH、HellaSwag)上性能反而下降了 1-2 个百分点。
作者的解释是:CPT 引发了模型内部的「表征重校准」——旧的全局表征被扰动,通用能力暂时受损。这意味着 CPT 应该是精准的靶向治疗,而非全局施加的万能补药。后续需要SFT重新调和。
对从业者的启示
读完这篇论文,每个做 SFT 的工程师都应该问自己几个问题:
1. 你在 SFT 之后,有没有把训练集重新测试一遍?——如果没有,你可能不知道有多少样本根本没学会。
2. 你的数据标注内部有没有矛盾?——用 Sentence-BERT 扫一遍语义相似但标签不同的样本对。
3. 你的数据顺序是怎么排的?——如果是按来源/任务线性排列,前面的数据大概率被遗忘了。
4. 你有没有检查过基模型对目标领域的 zero-shot 能力?——如果随机化水平,SFT 救不了你,先做 CPT。
论文亮点速览
热门跟贴