SFT「不完全学习」之后，研究的下一个前沿在哪？ACL 2026 腾讯混元论文未来方向展望|方向|样本|模态|腾讯|论文|语料

作者 | 薛超

编辑 | 蔡芳芳

每一篇定义新领域的论文，都会打开更多的研究问题。本文从不完全学习现象（ILP，Incomplete Learning Phenomenon）出发，展望 SFT 领域的未来研究方向——有些来自腾讯混元与 UNSW 联合撰写的论文，有些则从框架本身推导而来。

论文标题: Why Supervised Fine-Tuning Fails to Learn: A Systematic Study of Incomplete Learning in Large Language Models
arXiv 链接: https://arxiv.org/abs/2604.10079

1 方向一：未知根因——被 ILP 框架遗漏的 3%

论文承认约 3%的未学习样本不属于五大根因中的任何一个。这些样本的特征是：

基模型 zero-shot 表现正常（>25%准确率）

SFT 标签正确
训练集中没有 Sim>0.85 的矛盾样本对
在训练序列中的位置随机
Loss 曲线正常（平稳收敛）

所有已知的归因信号都“正常”，但模型就是没学会。

可能的解释：

样本本身的“内在难度”过高——问题表述过于复杂，模型虽然具备知识但无法准确理解问题
多步推理缺失——样本需要多步推理，但基模型在推理链中间步骤就出错了
语义漂移——训练集标注和预训练知识在语义上不完全匹配，但又不是明显的“冲突”
解码策略的固有缺陷——某些样本的正确答案在解码空间中概率分布平坦，与采样温度相互作用后不稳定

研究价值：如果找到新的根因，ILP 的归因覆盖率可以从 97%提升到接近 100%。更重要的是，新根因可能会揭示 SFT 目前尚未被理解的深层限制。

实操建议：对于你的项目中那 3%的“疑难杂症”样本，建议单独标注和追踪。它们可能是下一个根因发现的第一批线索。

2 方向二：检测方法的改进——从 MC 到自由文本

MC 转换+pass@5 是论文提出的检测方法，但它不是一个“最终方案”。有两个可以改进的方向：

方向 2a：自由文本的自动判分

MC 转换的核心局限是它改变了任务的格式——虽然论文用“训练-评估解耦”规避了影响，但能否直接在自由文本输出上做 pass@N 检测？

关键是“如何判断自由文本输出是否等价于正确答案”。目前有三种思路：

基于 LLM 的自动判分（如 GPT-4 作为评判者）
基于语义嵌入的相似度计算（如 Sentence-BERT 余弦相似度）
基于信息覆盖的判定（如输出是否覆盖了正确答案的所有关键信息）

论文选择 MC 转换的原因是它提供了客观、可复现、跨模型可比的基线。自由文本判分方案如果能达到同样的客观性，将是检测方法的重要进步。

方向 2b：动态温度的选择

论文使用的是固定温度 0.7 做 pass@5 采样。但不同样本可能需要不同的温度来展示其“灵活性”——有的样本在低温下就稳定正确，有的需要高温才能展现多样性。

一个可能的改进是：针对每条样本动态选择最佳检测温度，甚至使用多种温度的 ensemble 结果。

3 方向三：归因框架的深入——更精细的根因子类

根因 I 的子类化

根因 I（预训练知识缺失）目前是一个统一类别。但“知识缺失”有不同层级：

完全缺失：预训练语料中完全不存在相关知识——论文的 8.2%匹配率
部分缺失：预训练语料中有部分相关信息但不够形成完整表征
边缘缺失：预训练语料中有相关知识但不在 SFT 样本所在的具体子领域

不同层级的缺失可能需要不同的 CPT 策略——是完全从零构建，还是在已有基础上精炼？

根因 III 的细化

根因 III（数据内部矛盾）的定义目前依赖 Sim>0.85 的相似度阈值。但矛盾的具体类型可能不同：

标签矛盾：两样本完全一样但标签不同
语义矛盾：样本相似但标签指向矛盾的结论
视角矛盾：样本从不同角度描述同一事物，标签看似不同但实际不矛盾

“假的”根因 III——表面上矛盾但实际不矛盾的样本对——可能在某些数据集中被误归为根因 III。

根因 IV 的边界

根因 IV（左侧遗忘）目前关注训练序列的位置效应。但“位置”的定义可以更精细：

绝对位置：在训练序列中的绝对序号——最简单
相对位置：在总长度中的相对比例——论文使用的方式
上下文位置：与该样本语义相关的其他样本的相对位置——更复杂但可能更精确

如果使用语义嵌入来定义“语义邻居”的位置，可能会发现根因 IV 的本质是“被相似语义的后续样本覆盖”，而不简单是“在序列前段”。

4 方向四：根因交互——多个根因同时存在时的处理

论文目前的分析是单根因分析——一个样本被归因为一个根因。但在实际项目中，一个未学习样本可能同时涉及多个根因：

根因 I 样本恰好位于训练序列前段→根因 I+根因 IV
根因 II 样本在训练集中也有矛盾样本对→根因 II+根因 III
根因 III 样本同时是难样本→根因 III+根因 V

论文目前把所有样本归入“主导根因”，但“主导”的含义可能不明确——哪些样本真的是单根因，哪些只是被归到最显著的根因？

多根因处理策略

如果未来研究证实多根因样本占相当比例，需要开发多根因处理策略：

并行修复：同时对涉及的多个根因执行对应方案
串行修复：按根因优先级逐一修复、逐一验证
组合策略：设计一个方案同时处理多个根因（如全局打乱+动态分桶+渐进 Epoch 的方案组合）

5 方向五：泛化到其他训练范式

论文的“检测→归因→干预→验证”框架不只是针对 SFT 的。它可以被推广到：

RLHF/DPO（基于人类反馈的强化学习/直接偏好优化）

检测：模型的偏好是否被真正内化？RLHF 模型在偏好数据上的“通过率”是否也有 ILP？
归因：偏好数据中的 ILP 根因是什么？预训练知识冲突是否也是 RLHF 中“奖励黑客”的原因？
干预：CPT 是否也能解决 RLHF 中的未学习问题？

持续学习

检测：增量训练中，新数据是否被真正学会？旧知识是否被覆盖？
归因：增量学习中的遗忘是根因 IV（位置）的变体吗？
干预：重采样策略是否也能用于持续学习的遗忘缓解？

多模态训练

检测：多模态模型中，“语言对齐→视觉理解”的转换中是否有 ILP？
归因：未对齐的根因是视觉编码器知识缺失（根因 I 变体），还是文本冲突（根因 II 变体）？
干预：CPT 在视觉语言模型中的模拟——对比学习是否需要“知识增强”？

6 方向六：CPT 的精细化研究

论文证明了 CPT 对根因 I/II 有效，但 CPT 本身还有很多未解决的问题：

CPT 数据选择

如何自动选择最优的 CPT 语料？——相关性+质量+覆盖率的平衡
是否需要领域特异性？——通用语料 vs 完全领域特异的语料
CPT 的“配比”——目标语料和通用语料的比例

CPT 训练策略

CPT 的训练步数对效果和代价的影响——论文使用 5B token，但多少是最优的？
CPT 的学习率选择——太低无效，太高导致通用能力灾难性下降
CPT 的早停策略——何时停止 CPT 可以最大化领域知识增量、最小化通用能力损失

CPT 的代价减轻

如何减少 CPT 带来的 MMLU 下降？——论文混合了~15%通用语料
混合配比的精细实验——10%、15%、20%、25%的最优配比是多少？
CPT 后的“恢复训练”——用少量通用语料重新训练能否恢复通用能力？

7 方向七：ILP 的行业应用与标准化

建立 ILP 检测的行业标准

论文展示了 ILP 检测的价值，但行业标准还没有建立：
是否需要统一的检测流程？——MC 转换+pass@5 是否应该成为 SFT 评估的标准组件？
是否需要建立 ILP 的 benchmark？——如同 MMLU、HumanEval 一样？

ILP 与模型安全

ILP 可能对 AI 安全有重要启示：
未学习样本是否也是“安全对齐未成功”的样本？——如果模型对 15%的样本“没学会”，那 15%的安全规则是否也“没被对齐”？
ILP 检测能否作为“红队测试”的前置筛选——先跑 pass@5 找出未对齐样本，再做人工红队测试？

降低 ILP 检测的门槛

论文的 ILP 检测需要 GPT-4（干扰项生成）和一定的计算资源。降低门槛也是重要的推进方向：

用开源模型替代 GPT-4 进行干扰项生成
开发一键式 ILP 检测工具
将 ILP 检测集成到主流的 SFT 训练框架中

8 写在最后：ILP 研究的“无穷远方”

ACL 2026 论文对 ILP 的发现不是终点，而是起点。

它打开了一个全新的研究方向——“SFT 病理学”：ILP 是症状，五大根因是病因，五种方案是处方，“检测→归因→干预→验证”是诊疗流程。

这个框架可以被推广到 RLHF、DPO、多模态、持续学习等所有涉及“训练数据是否被有效学习”的场景。每一步推广都会产生新的科学问题。

对研究者：篇篇论文都有做——每一个“方向”都是一篇新论文的核心内容。未知根因、多根因交互、CPT 精细化、RLHF 推广、自由文本检测……随便选一个方向深挖，就是一篇新的顶会论文。

对工程师：这些方向中最有工程价值的是 ILP 检测标准化和 CPT 精细化。把 ILP 检测集成到 SFT 训练框架中，就像把 unit test 集成到软件开发流程中一样自然。这可能是未来 1-2 年内 SFT 工程领域最重要的基础设施升级。

ILP 不只是这篇论文的发现，它是整个后训练研究范式的起点。

未来的研究议程

基于对 ILP 框架的完整理解，我列出未来研究中应该优先推动的方向：

Tier 1（高优先级，1-2 年内有望突破）

未知根因的发现与验证——论文已确定的 3%样本
自由文本 pass@N 检测——替代 MC 转换的局限性
ILP 检测的标准化工具——让检测流程可以一键运行

Tier 2（中优先级，2-3 年内有望突破）

多根因样本的联合归因与修复策略
CPT 数据选择的精细化——自动寻找最优语料
ILP 在 RLHF/DPO 中的推广

Tier 3（长期目标，3 年以上）

ILP 与 AI 安全交叉——未对齐样本检测
预训练阶段 ILP——大模型在预训练阶段的“”不完全学习“”
跨模态 ILP——视觉语言对齐中的未学习现象

对研究社区的建议

ILP 的出现，让 SFT 研究从“怎么做更好”进入了“为什么没做好”的阶段。这个范式转变需要社区共同努力：

建立 ILP 的通用 benchmark：统一的检测标准、归因标准、评估标准，让不同研究的成果可以公平比较

开发 ILP 的开源工具包：包括 MC 转换、pass@5 检测、2x2 归因矩阵、干预方案验证等模块

共享根因分布数据：不同领域、不同模型、不同数据集上的根因分布数据，帮助社区建立更完整的 ILP 认知地图

这是一条新的研究道路，但不是最后一条。

论文: Why Supervised Fine-Tuning Fails to Learn: A Systematic Study of Incomplete Learning in Large Language Models 会议: ACL 2026 | 单位: 腾讯混元与 UNSW arXiv: https://arxiv.org/abs/2604.10079