Claude-Opus-4.6 蒸馏 Qwen3.5 V2 来了|opus|qwen|正确率|蒸馏|通用|逻辑推理

大家好，我是Ai学习的老章

Claude-Opus-4.6 蒸馏 Qwen3.5 我一直很关注：

现在 v2 来了，这次的升级重点不是"更准"，而是"更快更省"——同样的准确率，思维链缩短了 24%，每个 Token 产出的正确答案多了 31.6%。

部署条件没变，Qwen3.5-27B 4bit 单张 4090 即可本地跑起

先看核心数据：

指标

变化

HumanEval pass@1

96.95%

96.91%

基本持平

思维链长度

基准

缩短 ~24%

显著减少

每 Token 正确率

基准

+31.6%

大幅提升

HumanEval+

基准

-1.24%

微降

MMLU-Pro

基准

-7.2%

有所下降

简单说就是：代码能力几乎没掉，但思考效率提升了三成。

这意味着什么？同样一道编程题，v2 想的更少、答得更快，但正确率一样。对于跑本地模型的人来说，生成速度本来就是瓶颈，少生成 24% 的 Token 就等于快了 24%——还不用加任何硬件。

v2 的训练数据是关键。作者 Jackrong 用了14,000 条 Claude 4.6 Opus 风格的通用推理样本，注意是"通用推理"——数学题、逻辑推理、文字题，不是代码题。

这个设计思路很有意思：不针对代码刷分，而是让模型学会一种更高效的"思考脚手架"。结果在 HumanEval（代码测试）上照样拿了 96.91%，说明底层推理能力的提升是可以跨任务迁移的。

具体来说，v2 学到的推理模式长这样：

Let me analyze this request carefully:


 1. Identify the core objective of the problem.
2. Break the task into clearly defined subcomponents.
3. Evaluate constraints and edge cases.
4. Formulate a step-by-step solution plan.
5. Execute the reasoning sequentially and verify consistency.

对比 v1 的长篇大论式思考，v2 更像一个有经验的工程师——先列大纲再下手，不会在简单问题上反复纠结。这就是 Claude Opus 的推理风格：结构化、有条理、不废话。

技术栈和 v1 一脉相承：

基座模型：Qwen3.5-27B
训练框架：Unsloth + LoRA SFT
训练方式：Response-Only Training，只对 assistant 的思考部分做监督
数据量：~14,000 条筛选后的高质量推理轨迹

Base Model (Qwen3.5-27B)
 │
 ▼
Qwen3.5-27B fine-tuned with Unsloth
 │
 ▼
Supervised Fine-Tuning (SFT) + LoRA
(Response-Only Training masked on "<|im_start|>assistant\n 

 " 
)
 │
 ▼
Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

数据来源包括几个公开的 Claude 4.6 Opus 蒸馏数据集：

数据集

用途

Opus-4.6-Reasoning-3000x-filtered

Claude 4.6 Opus 推理轨迹

claude-opus-4.6-10000x

大规模通用推理迁移

claude-4.5-opus-high-reasoning-250x

高强度结构化推理

Qwen3.5-reasoning-700x

补充多样性推理样本