ACL 2026 | 腾讯混元发现「不完全学习」，SFT仍漏学15%训练数据

新浪财经

2026-06-19 21:42 ·北京 ·优质财经领域创作者

来源：市场资讯

（来源：PaperWeekly）

即使 SFT（Supervised Fine-Tuning，监督微调）训练已收敛、loss 已平稳、所有超参都调无可调，你的模型在训练集上重新测试——仍然有平均 15.3% 的样本答不对。

这不是过拟合，不是灾难性遗忘，不是数据噪声。这是「不完全学习」。

什么是「不完全学习现象」（ILP）？

做过 SFT 的人都有过这种困惑：训练 loss 已经趋近于零，eval loss 也很漂亮，benchmark 分数涨了 3-5 个点——一切看起来都很完美。

但你随手从训练集里抽几条让模型重新回答，它竟然答错了。你以为是偶然，再多抽几条——发现答错的比例并不低。

这不是你的错觉。腾讯混元与 UNSW 的联合团队在 ACL 2026 上发表的这篇论文，首次对这一现象进行了系统性研究，将其命名为 Incomplete Learning Phenomenon（ILP）：训练后模型未能内化部分监督信号的现象。

论文标题：

Why Supervised Fine-Tuning Fails to Learn: A Systematic Study of Incomplete Learning in Large Language Models

收录会议：

ACL 2026

作者单位：

腾讯混元 × UNSW

论文链接：

https://arxiv.org/abs/2604.10079

ILP 到底有多普遍？

核心数据：15.3% ± 2.1%

在 10 个标准 SFT 数据集上，作者通过精心设计的检测协议（后文详述），发现平均有 15.3% ± 2.1% 的训练样本处于未学习状态。这个比例在以下维度上惊人地稳定：

〓图1：不完全学习现象示意图——微调后在训练集上重新测试，部分样本在 SFT 过程中并未被有效学习。

更令人警醒的是：未学习样本不是随机的。它们系统性地集中在——

涉及罕见实体/低频知识：23.4% 未学习率
需要多步组合推理：19.8% 未学习率
与预训练知识冲突：21.2% 未学习率
简单陈述性知识：8.1% 未学习率（相对较低）

这意味着模型「选择性放弃」的恰好是那些最有价值、最难标注的复杂样本。

为什么这件事极其重要？

3.1 经济账：15%的标注预算可能白花了

医疗、法律、金融等垂直领域的 SFT 数据标注成本极高。如果 15% 的数据模型根本学不会，这 15% 的标注费用就是纯浪费。

3.2 可靠性账：关键场景的不均衡失效

未学习样本不是均匀分布的——它们集中在罕见病诊断、边缘法条适用、长尾金融产品等高价值但低频的场景。这意味着模型在「看似正常」的整体表现下，隐藏着关键场景的系统性盲区。

3.3 评估账：aggregate metrics 是遮羞布

传统 SFT 评估只看 loss 曲线和最终 benchmark 分数。一个模型可以在 85% 的整体准确率下，对固定的 15% 训练样本永远答错——而 loss 曲线完全看不出来。

作者发现了什么？五大根因

本文最核心的贡献是将未学习样本归因到五个可操作的原因：

〓图3：未学习样本归因框架——横轴为「基模型是否已知」，纵轴为「SFT标签是否正确」。

根因 I 与 II：知识层面的鸿沟

根因 I（知识缺失）是最「绝望」的情况：基模型根本没接触过相关知识，SFT 的有限梯度信号不足以从零构建知识表征。论文的实验表明，单纯增加 SFT 的 epoch 对该类样本仅提升 1-2%。

根因 II（知识冲突）则更「顽固」：模型在预训练阶段形成了强烈的错误信念（比如某个已过时的事实），SFT 虽然给出了正确答案，但预训练的先验分布太强，模型「拒绝改变」。

在 OLMo2-7B 上，通过检索 Dolma 5T token 预训练语料，作者确认：19.3%的 SFT 知识在预训练中根本不存在，14.5% 与预训练知识冲突。仅这两项就覆盖了超过三分之一的不完全学习案例。

根因 III：数据自身的矛盾

SFT 数据中经常存在语义高度相似但标签不一致的样本对。比如两个样本都在问某疾病的潜伏期，一个标注为「3-7 天」，另一个是「1-14 天」。当它们出现在同一 batch 时，梯度方向相反——净梯度接近零，两个样本都学不会。

根因 IV：多任务训练的先后顺序

当 SFT 数据按来源顺序排列（先全部 MedQA，再全部 LegalBench...），模型在后期训练中会「覆盖」早期的学习成果。最严重的情况：前 10% 数据的 ROUGE-L 下降了 29%。

根因 V：简单样本「吃掉」梯度

虽然简单样本的梯度小，但数量多——累积梯度反而更大。难样本数量少但梯度大，却因为样本量不足被平均掉了。

五类针对性解决方案

作者为每种病因设计了针对性的干预策略——注意，不是万能药，每种策略只对特定病因有效：

〓图4：引入 CPT 后各领域性能提升——医疗、法律、金融均有持续增长。

〓表1：CPT 前后准确率对比——提升在跨模型规模和领域中均保持稳定。

研究的完整框架

〓图2：作者提出的「检测→归因→干预」三段式诊断框架。

这个框架将 SFT 评估从传统的「平均分思维」推进到了 instance-level 的学习诊断。核心思想是：不再是「模型总体学得不错」，而是「具体哪些样本没学会？为什么？怎么办？」

一个重要的警醒：CPT 是手术刀，不是补药

在 OLMo2-7B 上的实验揭示了一个耐人寻味的现象：CPT 虽然在具体的知识冲突案例上成功纠正了输出（时效性知识、跨文化法律差异、多语言地理实体），但在通用 benchmark（MMLU、BBH、HellaSwag）上性能反而下降了 1-2 个百分点。

作者的解释是：CPT 引发了模型内部的「表征重校准」——旧的全局表征被扰动，通用能力暂时受损。这意味着 CPT 应该是精准的靶向治疗，而非全局施加的万能补药。后续需要SFT重新调和。

对从业者的启示

读完这篇论文，每个做 SFT 的工程师都应该问自己几个问题：

1. 你在 SFT 之后，有没有把训练集重新测试一遍？——如果没有，你可能不知道有多少样本根本没学会。

2. 你的数据标注内部有没有矛盾？——用 Sentence-BERT 扫一遍语义相似但标签不同的样本对。

3. 你的数据顺序是怎么排的？——如果是按来源/任务线性排列，前面的数据大概率被遗忘了。

4. 你有没有检查过基模型对目标领域的 zero-shot 能力？——如果随机化水平，SFT 救不了你，先做 CPT。

论文亮点速览

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴