作者 | 薛超
编辑 | 蔡芳芳
每一篇定义新领域的论文,都会打开更多的研究问题。本文从不完全学习现象(ILP,Incomplete Learning Phenomenon)出发,展望 SFT 领域的未来研究方向——有些来自腾讯混元与 UNSW 联合撰写的论文,有些则从框架本身推导而来。
论文标题: Why Supervised Fine-Tuning Fails to Learn: A Systematic Study of Incomplete Learning in Large Language Models
arXiv 链接: https://arxiv.org/abs/2604.10079
1 方向一:未知根因——被 ILP 框架遗漏的 3%
论文承认约 3%的未学习样本不属于五大根因中的任何一个。这些样本的特征是:
基模型 zero-shot 表现正常(>25%准确率)
SFT 标签正确
训练集中没有 Sim>0.85 的矛盾样本对
在训练序列中的位置随机
Loss 曲线正常(平稳收敛)
所有已知的归因信号都“正常”,但模型就是没学会。
可能的解释:
样本本身的“内在难度”过高——问题表述过于复杂,模型虽然具备知识但无法准确理解问题
多步推理缺失——样本需要多步推理,但基模型在推理链中间步骤就出错了
语义漂移——训练集标注和预训练知识在语义上不完全匹配,但又不是明显的“冲突”
解码策略的固有缺陷——某些样本的正确答案在解码空间中概率分布平坦,与采样温度相互作用后不稳定
研究价值:如果找到新的根因,ILP 的归因覆盖率可以从 97%提升到接近 100%。更重要的是,新根因可能会揭示 SFT 目前尚未被理解的深层限制。
实操建议:对于你的项目中那 3%的“疑难杂症”样本,建议单独标注和追踪。它们可能是下一个根因发现的第一批线索。
2 方向二:检测方法的改进——从 MC 到自由文本
MC 转换+pass@5 是论文提出的检测方法,但它不是一个“最终方案”。有两个可以改进的方向:
方向 2a:自由文本的自动判分
MC 转换的核心局限是它改变了任务的格式——虽然论文用“训练-评估解耦”规避了影响,但能否直接在自由文本输出上做 pass@N 检测?
关键是“如何判断自由文本输出是否等价于正确答案”。目前有三种思路:
基于 LLM 的自动判分(如 GPT-4 作为评判者)
基于语义嵌入的相似度计算(如 Sentence-BERT 余弦相似度)
基于信息覆盖的判定(如输出是否覆盖了正确答案的所有关键信息)
论文选择 MC 转换的原因是它提供了客观、可复现、跨模型可比的基线。自由文本判分方案如果能达到同样的客观性,将是检测方法的重要进步。
方向 2b:动态温度的选择
论文使用的是固定温度 0.7 做 pass@5 采样。但不同样本可能需要不同的温度来展示其“灵活性”——有的样本在低温下就稳定正确,有的需要高温才能展现多样性。
一个可能的改进是:针对每条样本动态选择最佳检测温度,甚至使用多种温度的 ensemble 结果。
3 方向三:归因框架的深入——更精细的根因子类
根因 I 的子类化
根因 I(预训练知识缺失)目前是一个统一类别。但“知识缺失”有不同层级:
完全缺失:预训练语料中完全不存在相关知识——论文的 8.2%匹配率
部分缺失:预训练语料中有部分相关信息但不够形成完整表征
边缘缺失:预训练语料中有相关知识但不在 SFT 样本所在的具体子领域
不同层级的缺失可能需要不同的 CPT 策略——是完全从零构建,还是在已有基础上精炼?
根因 III 的细化
根因 III(数据内部矛盾)的定义目前依赖 Sim>0.85 的相似度阈值。但矛盾的具体类型可能不同:
标签矛盾:两样本完全一样但标签不同
语义矛盾:样本相似但标签指向矛盾的结论
视角矛盾:样本从不同角度描述同一事物,标签看似不同但实际不矛盾
“假的”根因 III——表面上矛盾但实际不矛盾的样本对——可能在某些数据集中被误归为根因 III。
根因 IV 的边界
根因 IV(左侧遗忘)目前关注训练序列的位置效应。但“位置”的定义可以更精细:
绝对位置:在训练序列中的绝对序号——最简单
相对位置:在总长度中的相对比例——论文使用的方式
上下文位置:与该样本语义相关的其他样本的相对位置——更复杂但可能更精确
如果使用语义嵌入来定义“语义邻居”的位置,可能会发现根因 IV 的本质是“被相似语义的后续样本覆盖”,而不简单是“在序列前段”。
4 方向四:根因交互——多个根因同时存在时的处理
论文目前的分析是单根因分析——一个样本被归因为一个根因。但在实际项目中,一个未学习样本可能同时涉及多个根因:
根因 I 样本恰好位于训练序列前段→根因 I+根因 IV
根因 II 样本在训练集中也有矛盾样本对→根因 II+根因 III
根因 III 样本同时是难样本→根因 III+根因 V
论文目前把所有样本归入“主导根因”,但“主导”的含义可能不明确——哪些样本真的是单根因,哪些只是被归到最显著的根因?
多根因处理策略
如果未来研究证实多根因样本占相当比例,需要开发多根因处理策略:
并行修复:同时对涉及的多个根因执行对应方案
串行修复:按根因优先级逐一修复、逐一验证
组合策略:设计一个方案同时处理多个根因(如全局打乱+动态分桶+渐进 Epoch 的方案组合)
5 方向五:泛化到其他训练范式
论文的“检测→归因→干预→验证”框架不只是针对 SFT 的。它可以被推广到:
RLHF/DPO(基于人类反馈的强化学习/直接偏好优化)
检测:模型的偏好是否被真正内化?RLHF 模型在偏好数据上的“通过率”是否也有 ILP?
归因:偏好数据中的 ILP 根因是什么?预训练知识冲突是否也是 RLHF 中“奖励黑客”的原因?
干预:CPT 是否也能解决 RLHF 中的未学习问题?
持续学习
检测:增量训练中,新数据是否被真正学会?旧知识是否被覆盖?
归因:增量学习中的遗忘是根因 IV(位置)的变体吗?
干预:重采样策略是否也能用于持续学习的遗忘缓解?
多模态训练
检测:多模态模型中,“语言对齐→视觉理解”的转换中是否有 ILP?
归因:未对齐的根因是视觉编码器知识缺失(根因 I 变体),还是文本冲突(根因 II 变体)?
干预:CPT 在视觉语言模型中的模拟——对比学习是否需要“知识增强”?
6 方向六:CPT 的精细化研究
论文证明了 CPT 对根因 I/II 有效,但 CPT 本身还有很多未解决的问题:
CPT 数据选择
如何自动选择最优的 CPT 语料?——相关性+质量+覆盖率的平衡
是否需要领域特异性?——通用语料 vs 完全领域特异的语料
CPT 的“配比”——目标语料和通用语料的比例
CPT 训练策略
CPT 的训练步数对效果和代价的影响——论文使用 5B token,但多少是最优的?
CPT 的学习率选择——太低无效,太高导致通用能力灾难性下降
CPT 的早停策略——何时停止 CPT 可以最大化领域知识增量、最小化通用能力损失
CPT 的代价减轻
如何减少 CPT 带来的 MMLU 下降?——论文混合了~15%通用语料
混合配比的精细实验——10%、15%、20%、25%的最优配比是多少?
CPT 后的“恢复训练”——用少量通用语料重新训练能否恢复通用能力?
7 方向七:ILP 的行业应用与标准化
建立 ILP 检测的行业标准
论文展示了 ILP 检测的价值,但行业标准还没有建立:
是否需要统一的检测流程?——MC 转换+pass@5 是否应该成为 SFT 评估的标准组件?
是否需要建立 ILP 的 benchmark?——如同 MMLU、HumanEval 一样?
ILP 与模型安全
ILP 可能对 AI 安全有重要启示:
未学习样本是否也是“安全对齐未成功”的样本?——如果模型对 15%的样本“没学会”,那 15%的安全规则是否也“没被对齐”?
ILP 检测能否作为“红队测试”的前置筛选——先跑 pass@5 找出未对齐样本,再做人工红队测试?
降低 ILP 检测的门槛
论文的 ILP 检测需要 GPT-4(干扰项生成)和一定的计算资源。降低门槛也是重要的推进方向:
用开源模型替代 GPT-4 进行干扰项生成
开发一键式 ILP 检测工具
将 ILP 检测集成到主流的 SFT 训练框架中
8 写在最后:ILP 研究的“无穷远方”
ACL 2026 论文对 ILP 的发现不是终点,而是起点。
它打开了一个全新的研究方向——“SFT 病理学”:ILP 是症状,五大根因是病因,五种方案是处方,“检测→归因→干预→验证”是诊疗流程。
这个框架可以被推广到 RLHF、DPO、多模态、持续学习等所有涉及“训练数据是否被有效学习”的场景。每一步推广都会产生新的科学问题。
对研究者:篇篇论文都有做——每一个“方向”都是一篇新论文的核心内容。未知根因、多根因交互、CPT 精细化、RLHF 推广、自由文本检测……随便选一个方向深挖,就是一篇新的顶会论文。
对工程师:这些方向中最有工程价值的是 ILP 检测标准化和 CPT 精细化。把 ILP 检测集成到 SFT 训练框架中,就像把 unit test 集成到软件开发流程中一样自然。这可能是未来 1-2 年内 SFT 工程领域最重要的基础设施升级。
ILP 不只是这篇论文的发现,它是整个后训练研究范式的起点。
未来的研究议程
基于对 ILP 框架的完整理解,我列出未来研究中应该优先推动的方向:
Tier 1(高优先级,1-2 年内有望突破)
未知根因的发现与验证——论文已确定的 3%样本
自由文本 pass@N 检测——替代 MC 转换的局限性
ILP 检测的标准化工具——让检测流程可以一键运行
Tier 2(中优先级,2-3 年内有望突破)
多根因样本的联合归因与修复策略
CPT 数据选择的精细化——自动寻找最优语料
ILP 在 RLHF/DPO 中的推广
Tier 3(长期目标,3 年以上)
ILP 与 AI 安全交叉——未对齐样本检测
预训练阶段 ILP——大模型在预训练阶段的“”不完全学习“”
跨模态 ILP——视觉语言对齐中的未学习现象
对研究社区的建议
ILP 的出现,让 SFT 研究从“怎么做更好”进入了“为什么没做好”的阶段。这个范式转变需要社区共同努力:
建立 ILP 的通用 benchmark:统一的检测标准、归因标准、评估标准,让不同研究的成果可以公平比较
开发 ILP 的开源工具包:包括 MC 转换、pass@5 检测、2x2 归因矩阵、干预方案验证等模块
共享根因分布数据:不同领域、不同模型、不同数据集上的根因分布数据,帮助社区建立更完整的 ILP 认知地图
这是一条新的研究道路,但不是最后一条。
论文: Why Supervised Fine-Tuning Fails to Learn: A Systematic Study of Incomplete Learning in Large Language Models 会议: ACL 2026 | 单位: 腾讯混元 与 UNSW arXiv: https://arxiv.org/abs/2604.10079
热门跟贴