智猩猩AI整理

编辑: 发发

长思维链(Long CoT)推理是大模型解决复杂任务的核心能力,但传统蒸馏方法存在三大痛点:教师分布覆盖不足、师生分布错位、训练-推理暴露偏差。这些问题导致小模型难以继承大模型的泛化能力,往往需要海量训练数据或巨大参数量。

为此,阿里巴巴团队提出分布对齐序列蒸馏(DASD)新范式,成功打造出轻量级推理模型DASD-4B-Thinking,并且通过温度调度学习、差异感知采样和混合策略蒸馏三大创新,系统解决了序列蒸馏的核心问题,仅用448K样本实现"小模型+少数据"的极致效率。在数学推理、代码生成和科学问答三大核心任务上均达到SOTA性能,不仅超越所有同规模模型,更直接碾压多个32B级大模型。目前该研究的模型权重和训练数据集已全量开源。

打开网易新闻 查看精彩图片

论文标题:

Distribution-Aligned Sequence Distillation forSuperior Long-CoT Reasoning

  • 论文链接:

    https://arxiv.org/pdf/2601.09088v1

  • 开源代码:

    https://github.com/D2I-ai/dasd-thinking

  • 01 方法

    (1)温度调度学习

    打开网易新闻 查看精彩图片

    图1:不同温度下gpt - oss - 120b采样数据的概率分布和训练损失对比

    传统方法随机采样响应数据,仅覆盖教师序列级分布的一小部分模式。DASD采用一种两阶段温度调度学习策略

    • 低温阶段(T=0.6):从教师模型(gpt-oss-120b)生成回答。这会产生高置信度、模式集中的输出,有助于学生模型(Qwen3-4B)在训练早期稳定学习。

    • 高温阶段(T=1.0):扩大采样温度覆盖更多教师模式,增加数据多样性,捕获稀有推理模式。

    该课程学习式调度先易后难,低温样本快速建立基础,高温样本拓宽分布覆盖,兼顾了早期训练的稳定性与后期知识覆盖的广度。

    (2)差异感知采样

    打开网易新闻 查看精彩图片

    图2:三种模型预测概率的联合比较

    传统SFT会放大概率差异产生误导梯度。DASD提出一种系统性的分布分解框架,识别四种句子类型:

    • 教师句子:教师高置信度而学生低概率的句子。

    • 学生句子:学生高概率而教师低概率的句子。

    • 共享句子:师生概率相近且蒸馏后不变的句子。

    • 增强句子:蒸馏后概率显著提升的句子。

    打开网易新闻 查看精彩图片

    图3:研究团队内部训练的模型(左二个面板)和开源的DeepSeek -蒸馏- Qwen3 - 8B - (右两个面板)在四种句子类型上的位置分布

    研究发现,“教师高置信、学生低概率”的句子与最终答案正确性高度正相关。因此,在数据采样阶段即优先选择此类样本,这种分歧感知采样(DAS)自然缓解了误导性梯度问题。

    (3)混合策略蒸馏

    打开网易新闻 查看精彩图片

    图4:不同token长度下截止响应之间的比值

    为缓解曝光偏差,研究团队在离策略SFT训练后,引入了一个轻量级的混合策略蒸馏阶段

    • 用训练好的学生模型重新生成训练查询的响应。

    • 识别与教师输出差异大的实例,如截断响应。

    • 随机截断学生生成内容,让教师续写完成。

    • 仅保留通过质量筛选的教师续写部分用于微调。

    这一构造性方法,通过结合学生策略与教师修正,有效提升了模型在真实自回归场景下的鲁棒性。

    (4)DASD整体训练流程

    打开网易新闻 查看精彩图片

    图5:DASD - 4B - Thinking整体训练流程

    该流程首先进行低/高温度采样,并全程应用分歧感知采样(DAS)来筛选数据。在两阶段SFT后,再通过混合策略蒸馏进行微调。

    02 评估

    (1)核心基准测试

    表1:DASD - 4B - Thinking整体训练流程

    打开网易新闻 查看精彩图片

    如表1所示,在AIME24/25、LiveCodeBench (v5/v6)和GPQA-Diamond五大权威基准上,DASD-4B-Thinking表现卓越,在多个任务上实现SOTA性能

    • 数学推理:在AIME24(88.5分)和AIME25(83.3分)上,DASD-4B-Thinking不仅超越所有同规模模型,还显著超越了Qwen3-32B(81.4/72.9)和GLM-Z1-32B(80.8/63.6)等32B级大模型。

    • 代码生成:在LiveCodeBench v5(69.3分)上超越DeepSeek-R1-0528-Qwen3-8B(60.5分)和Qwen3-14B(63.5分);在v6(67.5分)上显著优于Qwen3-4B-Thinking-2507(55.2分)。

    • 科学推理:GPQA Diamond得分68.4分,与Qwen3-32B持平,远超同规模模型。

    (2)消融实验

    表2:训练阶段消融实验

    打开网易新闻 查看精彩图片

    从 Qwen3-4B-Instruct-2507 基线开始,可以观察到三个阶段的性能持续提升:

    • 低温训练带来了显著的初始增益,AIME25从47.4%提升至74.0%(+26.6%)。这证实了早期训练中稳定、低方差的梯度信号对于建立坚实的推理基础至关重要。

    • 高温训练进一步提升了关键基准测试集的性能,LiveCodeBench v5提升11.8%。这表明,在建立稳定基线后,高温下的多样化探索能有效扩大策略的解决方案覆盖范围。

    • 混合策略蒸馏收尾,各基准再获0.3%-0.9%增益,证明了混合策略蒸馏在以最小训练开销解决暴露偏差问题方面的有效性。

    (3)跨架构适配

    表3:MoE模型性能对比

    打开网易新闻 查看精彩图片

    将DASD框架扩展至MoE模型DASD-30B-A3B-Thinking-Preview,直接复用4B模型的训练数据集,展现出色架构适应性:

    • 相比Qwen3-30B-A3B,在AIME25提升1.7%,在LiveCodeBench v6提升6.8%。

    • 仅用105K样本,性能超越NVIDIA 18M样本训练的Nemotron-3-Nano-30B-A3B。