一文中我已经把这个模型和部署(原版 + 量化版)介绍的很清楚了,闲逛又发现几个版本(4bit 量化版、推理加速版、Claude Opus 蒸馏版)很亮眼,推荐给大家。
第一路:三个 4bit 量化版本
Qwen3.6 发布还没捂热,社区已经搞出了三个 4bit 量化版本
目标很明确:把显存需求压下来,让消费级显卡能跑起来
1. cyankiwi/Qwen3.6-35B-A3B-AWQ-4bit
AWQ(Activation-aware Weight Quantization)量化,可以用 vLLM 0.19 直接拉起来
网友测试 2x4060 可以跑出 83tok/s
2. QuantTrio/Qwen3.6-35B-A3B-AWQ
同样是 AWQ 量化,这个版本出自 QuantTrio 团队,量化后模型大小约 24GB
有详细的 vLLM 启动脚本,支持 MTP(Multi-Token Prediction)推测解码
启动命令参考:
vllm serve QuantTrio/Qwen3.6-35B-A3B-AWQ \
--served-model-name MY_MODEL \
--max-model-len 32768 \
--gpu-memory-utilization 0.9 \
--tensor-parallel-size 4 \
--enable-expert-parallel \
--reasoning-parser qwen3 \
--speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}' \
--trust-remote-code
注意 TP=8 时要加--enable-expert-parallel,否则专家参数分片不均匀会出问题。
效果在线
3. RedHatAI/Qwen3.6-35B-A3B-NVFP4
这个来自 Red Hat AI 团队,用的是 NVFP4 格式——权重和激活都量化到 FP4
用 llm-compressor 工具做的量化
初步评测结果有个小惊喜:
模型
GSM8K Platinum 准确率
Qwen3.6-35B-A3B(原版)
95.62%
Qwen3.6-35B-A3B-NVFP4
96.28%
恢复率
100.69%
量化后准确率居然还涨了一点点
当然 Red Hat 团队也说了这只是初步结果,更严格的评测还在进行中
三个量化版本怎么选?
版本
量化格式
特点
推荐场景
cyankiwi
AWQ 4bit
快速可用
想尝鲜、快速验证
QuantTrio
AWQ
文档详细、附启动脚本
生产部署参考
RedHatAI
NVFP4
权重 + 激活双量化、官方团队出品
追求更极致压缩
三个版本都兼容 vLLM 0.19+,直接vllm serve就能跑
第二路:DFlash 推理加速版
DFlash 我介绍过两次了,老读者应该不陌生
简单回顾一下:DFlash 是一种基于块扩散模型(Block Diffusion)的推测解码方法。传统推测解码(比如 EAGLE-3)的草稿模型还是自回归的,一次只能预测一个 token。DFlash 换了个思路——用一个轻量的扩散模型,一次并行生成一整个 block 的 token。
核心技巧在于:DFlash 不让小模型从零开始预测,而是从目标大模型的隐层特征中提取上下文信息,注入到草稿模型的每一层 KV Cache 中。这样即使草稿模型很小,也能"借用"大模型的推理能力。
在 Qwen3-8B 上的实测数据:
基准测试
原版
EAGLE-3 加速
DFlash 加速
GSM8K
1×
2.13×
5.20×
MATH-500
1×
2.18×
6.17×
HumanEval
1×
2.48×
5.20×
MBPP
1×
2.27×
4.75×
EAGLE-3 大概 2-2.5 倍加速,DFlash 直接拉到 5-6 倍
而且这是完全无损的——输出跟原版一模一样
现在 z-lab 团队第一时间跟进了 Qwen3.6:
❝ z-lab/Qwen3.6-35B-A3B-DFlash
需要注意的是,这个草稿模型还在训练中(目前 2000 步),所以效果还会继续提升。
使用方式也很简单,vLLM 一行命令:
vllm serve Qwen/Qwen3.6-35B-A3B \
--speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.6-35B-A3B-DFlash", "num_speculative_tokens": 15}' \
--attention-backend flash_attn \
--max-num-batched-tokens 32768
SGLang 也已经支持了:
python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-35B-A3B \
--speculative-algorithm DFLASH \
--speculative-draft-model-path z-lab/Qwen3.6-35B-A3B-DFlash \
--speculative-num-draft-tokens 16 \
--tp-size 1 \
--attention-backend fa3 \
--mem-fraction-static 0.75 \
--trust-remote-code
早期测试的接受长度(Accept Length)数据:
数据集
接受长度
GSM8K
6.5
Math500
7.2
HumanEval
6.2
MBPP
5.6
MT-Bench
5.0
接受长度越高意味着加速比越大
Math500 上平均每次能接受 7.2 个 token,这个数字相当可观
第三路:Claude Opus 4.6 蒸馏版
这条路线大家也应该很熟悉了,我一直在追
Jackrong 在 Qwen3.5 上做的 Claude Opus 蒸馏系列我介绍过 V2 和 V3,每一版都有明显提升
现在社区开发者 hesamation 把这套思路搬到了 Qwen3.6 上:
❝ hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled
核心思路:保留 Qwen3.6 强大的 Agentic Coding 底座,同时注入 Claude Opus 4.6 风格的结构化推理能力
训练方式是用 LoRA 做有监督微调(SFT),然后合并回完整模型
训练数据来自三个公开数据集:
数据集
样本量
用途
nohurry/Opus-4.6-Reasoning-3000x-filtered
3,900
Claude Opus 推理轨迹
Jackrong/Qwen3.5-reasoning-700x
700
精选 Qwen 推理样本
Roman1111111/claude-opus-4.6-10000x
9,633
更多 Claude Opus 推理示例
总共约 14,000 条数据,规模不大,但质量很高——都是经过筛选的链式推理(Chain-of-Thought)示例。
训练配置:
配置项
微调方法
LoRA(仅 Attention 模块)
LoRA rank / alpha
32 / 32
梯度累积
32
训练轮次
2
最终训练 loss
最大序列长度
初步评测数据很亮眼:
基准测试
Base 模型
蒸馏后
提升
MMLU-Pro(70 题子集)
42.86%
75.71%+32.85pp
当然,作者也说了这只是 70 道题的小规模测试(14 个学科各 5 题),应该当做 smoke test 看,不是完整评测。但 +32.85 个百分点的提升还是很说明问题的——Claude Opus 的推理数据确实能显著增强模型的结构化推理能力。
值得注意的是,这个微调是纯文本的。Qwen3.6 底座虽然自带视觉编码器,但这轮训练没有用到图像/视频数据,所以多模态能力基本就是继承自 base model。
三路并行,选哪个?
需求
推荐方案
显存有限,想跑 Qwen3.6
AWQ/NVFP4 量化版
追求推理速度,愿意多占点显存
DFlash 加速版
需要更强的推理/分析能力
Claude Opus 蒸馏版
又想快又想省显存
量化版 + DFlash(理论可叠加,待验证)
这三条路线其实不冲突
量化解决的是"跑得起"的问题
DFlash 解决的是"跑得快"的问题
蒸馏解决的是"跑得好"的问题
我的看法
评测数据普遍不够充分。蒸馏版只跑了 70 道 MMLU-Pro 题,NVFP4 版只有一个 GSM8K 分数,量化版基本没有独立评测。社区还需要更多人来做严格的 benchmark
DFlash 版本还在训练中。2000 步的草稿模型效果肯定不是最终水平,现阶段的性能数据参考价值有限
Qwen3.6 的 base model 本身也是新出的。官方 benchmark 看着很强,但实际使用中的表现还需要时间检验
总的来说,开源 AI 社区围绕一个模型形成了量化→加速→蒸馏的完整优化链,每条路线都有独立团队在推进。
这种分布式协作的效率和活力,可能比任何单个模型的发布都更值得关注
.6
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!
热门跟贴