打开网易新闻 查看精彩图片

作者 | 薛超

编辑 | 蔡芳芳

每一篇定义新领域的论文,都会打开更多的研究问题。本文从不完全学习现象(ILP,Incomplete Learning Phenomenon)出发,展望 SFT 领域的未来研究方向——有些来自腾讯混元与 UNSW 联合撰写的论文,有些则从框架本身推导而来。

论文标题: Why Supervised Fine-Tuning Fails to Learn: A Systematic Study of Incomplete Learning in Large Language Models
arXiv 链接: https://arxiv.org/abs/2604.10079

1 方向一:未知根因——被 ILP 框架遗漏的 3%

论文承认约 3%的未学习样本不属于五大根因中的任何一个。这些样本的特征是:

基模型 zero-shot 表现正常(>25%准确率)

  • SFT 标签正确

  • 训练集中没有 Sim>0.85 的矛盾样本对

  • 在训练序列中的位置随机

  • Loss 曲线正常(平稳收敛)

所有已知的归因信号都“正常”,但模型就是没学会。

可能的解释:

  • 样本本身的“内在难度”过高——问题表述过于复杂,模型虽然具备知识但无法准确理解问题

  • 多步推理缺失——样本需要多步推理,但基模型在推理链中间步骤就出错了

  • 语义漂移——训练集标注和预训练知识在语义上不完全匹配,但又不是明显的“冲突”

  • 解码策略的固有缺陷——某些样本的正确答案在解码空间中概率分布平坦,与采样温度相互作用后不稳定

研究价值:如果找到新的根因,ILP 的归因覆盖率可以从 97%提升到接近 100%。更重要的是,新根因可能会揭示 SFT 目前尚未被理解的深层限制。

实操建议:对于你的项目中那 3%的“疑难杂症”样本,建议单独标注和追踪。它们可能是下一个根因发现的第一批线索。

打开网易新闻 查看精彩图片

2 方向二:检测方法的改进——从 MC 到自由文本

MC 转换+pass@5 是论文提出的检测方法,但它不是一个“最终方案”。有两个可以改进的方向:

方向 2a:自由文本的自动判分

MC 转换的核心局限是它改变了任务的格式——虽然论文用“训练-评估解耦”规避了影响,但能否直接在自由文本输出上做 pass@N 检测?

关键是“如何判断自由文本输出是否等价于正确答案”。目前有三种思路:

  • 基于 LLM 的自动判分(如 GPT-4 作为评判者)

  • 基于语义嵌入的相似度计算(如 Sentence-BERT 余弦相似度)

  • 基于信息覆盖的判定(如输出是否覆盖了正确答案的所有关键信息)

论文选择 MC 转换的原因是它提供了客观、可复现、跨模型可比的基线。自由文本判分方案如果能达到同样的客观性,将是检测方法的重要进步。

方向 2b:动态温度的选择

论文使用的是固定温度 0.7 做 pass@5 采样。但不同样本可能需要不同的温度来展示其“灵活性”——有的样本在低温下就稳定正确,有的需要高温才能展现多样性。

一个可能的改进是:针对每条样本动态选择最佳检测温度,甚至使用多种温度的 ensemble 结果。

3 方向三:归因框架的深入——更精细的根因子类

根因 I 的子类化

根因 I(预训练知识缺失)目前是一个统一类别。但“知识缺失”有不同层级:

  • 完全缺失:预训练语料中完全不存在相关知识——论文的 8.2%匹配率

  • 部分缺失:预训练语料中有部分相关信息但不够形成完整表征

  • 边缘缺失:预训练语料中有相关知识但不在 SFT 样本所在的具体子领域

不同层级的缺失可能需要不同的 CPT 策略——是完全从零构建,还是在已有基础上精炼?

根因 III 的细化

根因 III(数据内部矛盾)的定义目前依赖 Sim>0.85 的相似度阈值。但矛盾的具体类型可能不同:

  • 标签矛盾:两样本完全一样但标签不同

  • 语义矛盾:样本相似但标签指向矛盾的结论

  • 视角矛盾:样本从不同角度描述同一事物,标签看似不同但实际不矛盾

“假的”根因 III——表面上矛盾但实际不矛盾的样本对——可能在某些数据集中被误归为根因 III。

根因 IV 的边界

根因 IV(左侧遗忘)目前关注训练序列的位置效应。但“位置”的定义可以更精细:

  • 绝对位置:在训练序列中的绝对序号——最简单

  • 相对位置:在总长度中的相对比例——论文使用的方式

  • 上下文位置:与该样本语义相关的其他样本的相对位置——更复杂但可能更精确

如果使用语义嵌入来定义“语义邻居”的位置,可能会发现根因 IV 的本质是“被相似语义的后续样本覆盖”,而不简单是“在序列前段”。

打开网易新闻 查看精彩图片

4 方向四:根因交互——多个根因同时存在时的处理

论文目前的分析是单根因分析——一个样本被归因为一个根因。但在实际项目中,一个未学习样本可能同时涉及多个根因:

  • 根因 I 样本恰好位于训练序列前段→根因 I+根因 IV

  • 根因 II 样本在训练集中也有矛盾样本对→根因 II+根因 III

  • 根因 III 样本同时是难样本→根因 III+根因 V

论文目前把所有样本归入“主导根因”,但“主导”的含义可能不明确——哪些样本真的是单根因,哪些只是被归到最显著的根因?

多根因处理策略

如果未来研究证实多根因样本占相当比例,需要开发多根因处理策略:

  • 并行修复:同时对涉及的多个根因执行对应方案

  • 串行修复:按根因优先级逐一修复、逐一验证

  • 组合策略:设计一个方案同时处理多个根因(如全局打乱+动态分桶+渐进 Epoch 的方案组合)

5 方向五:泛化到其他训练范式

论文的“检测→归因→干预→验证”框架不只是针对 SFT 的。它可以被推广到:

RLHF/DPO(基于人类反馈的强化学习/直接偏好优化)

  • 检测:模型的偏好是否被真正内化?RLHF 模型在偏好数据上的“通过率”是否也有 ILP?

  • 归因:偏好数据中的 ILP 根因是什么?预训练知识冲突是否也是 RLHF 中“奖励黑客”的原因?

  • 干预:CPT 是否也能解决 RLHF 中的未学习问题?

持续学习

  • 检测:增量训练中,新数据是否被真正学会?旧知识是否被覆盖?

  • 归因:增量学习中的遗忘是根因 IV(位置)的变体吗?

  • 干预:重采样策略是否也能用于持续学习的遗忘缓解?

多模态训练

  • 检测:多模态模型中,“语言对齐→视觉理解”的转换中是否有 ILP?

  • 归因:未对齐的根因是视觉编码器知识缺失(根因 I 变体),还是文本冲突(根因 II 变体)?

  • 干预:CPT 在视觉语言模型中的模拟——对比学习是否需要“知识增强”?

6 方向六:CPT 的精细化研究

论文证明了 CPT 对根因 I/II 有效,但 CPT 本身还有很多未解决的问题:

CPT 数据选择

  • 如何自动选择最优的 CPT 语料?——相关性+质量+覆盖率的平衡

  • 是否需要领域特异性?——通用语料 vs 完全领域特异的语料

  • CPT 的“配比”——目标语料和通用语料的比例

CPT 训练策略

  • CPT 的训练步数对效果和代价的影响——论文使用 5B token,但多少是最优的?

  • CPT 的学习率选择——太低无效,太高导致通用能力灾难性下降

  • CPT 的早停策略——何时停止 CPT 可以最大化领域知识增量、最小化通用能力损失

CPT 的代价减轻

  • 如何减少 CPT 带来的 MMLU 下降?——论文混合了~15%通用语料

  • 混合配比的精细实验——10%、15%、20%、25%的最优配比是多少?

  • CPT 后的“恢复训练”——用少量通用语料重新训练能否恢复通用能力?

7 方向七:ILP 的行业应用与标准化

建立 ILP 检测的行业标准

  • 论文展示了 ILP 检测的价值,但行业标准还没有建立:

  • 是否需要统一的检测流程?——MC 转换+pass@5 是否应该成为 SFT 评估的标准组件?

  • 是否需要建立 ILP 的 benchmark?——如同 MMLU、HumanEval 一样?

ILP 与模型安全

  • ILP 可能对 AI 安全有重要启示:

  • 未学习样本是否也是“安全对齐未成功”的样本?——如果模型对 15%的样本“没学会”,那 15%的安全规则是否也“没被对齐”?

  • ILP 检测能否作为“红队测试”的前置筛选——先跑 pass@5 找出未对齐样本,再做人工红队测试?

降低 ILP 检测的门槛

论文的 ILP 检测需要 GPT-4(干扰项生成)和一定的计算资源。降低门槛也是重要的推进方向:

  • 用开源模型替代 GPT-4 进行干扰项生成

  • 开发一键式 ILP 检测工具

  • 将 ILP 检测集成到主流的 SFT 训练框架中

8 写在最后:ILP 研究的“无穷远方”

ACL 2026 论文对 ILP 的发现不是终点,而是起点。

它打开了一个全新的研究方向——“SFT 病理学”:ILP 是症状,五大根因是病因,五种方案是处方,“检测→归因→干预→验证”是诊疗流程。

这个框架可以被推广到 RLHF、DPO、多模态、持续学习等所有涉及“训练数据是否被有效学习”的场景。每一步推广都会产生新的科学问题。

对研究者:篇篇论文都有做——每一个“方向”都是一篇新论文的核心内容。未知根因、多根因交互、CPT 精细化、RLHF 推广、自由文本检测……随便选一个方向深挖,就是一篇新的顶会论文。

对工程师:这些方向中最有工程价值的是 ILP 检测标准化和 CPT 精细化。把 ILP 检测集成到 SFT 训练框架中,就像把 unit test 集成到软件开发流程中一样自然。这可能是未来 1-2 年内 SFT 工程领域最重要的基础设施升级。

ILP 不只是这篇论文的发现,它是整个后训练研究范式的起点。

未来的研究议程

基于对 ILP 框架的完整理解,我列出未来研究中应该优先推动的方向:

Tier 1(高优先级,1-2 年内有望突破)

  • 未知根因的发现与验证——论文已确定的 3%样本

  • 自由文本 pass@N 检测——替代 MC 转换的局限性

  • ILP 检测的标准化工具——让检测流程可以一键运行

Tier 2(中优先级,2-3 年内有望突破)

  • 多根因样本的联合归因与修复策略

  • CPT 数据选择的精细化——自动寻找最优语料

  • ILP 在 RLHF/DPO 中的推广

Tier 3(长期目标,3 年以上)

  • ILP 与 AI 安全交叉——未对齐样本检测

  • 预训练阶段 ILP——大模型在预训练阶段的“”不完全学习“”

  • 跨模态 ILP——视觉语言对齐中的未学习现象

对研究社区的建议

ILP 的出现,让 SFT 研究从“怎么做更好”进入了“为什么没做好”的阶段。这个范式转变需要社区共同努力:

建立 ILP 的通用 benchmark:统一的检测标准、归因标准、评估标准,让不同研究的成果可以公平比较

开发 ILP 的开源工具包:包括 MC 转换、pass@5 检测、2x2 归因矩阵、干预方案验证等模块

共享根因分布数据:不同领域、不同模型、不同数据集上的根因分布数据,帮助社区建立更完整的 ILP 认知地图

这是一条新的研究道路,但不是最后一条。

论文: Why Supervised Fine-Tuning Fails to Learn: A Systematic Study of Incomplete Learning in Large Language Models 会议: ACL 2026 | 单位: 腾讯混元 与 UNSW arXiv: https://arxiv.org/abs/2604.10079

打开网易新闻 查看精彩图片