Claude Opus 蒸馏Qwen3.6-35B-A3B，开源了，消费级显卡轻松跑

Ai学习的老章

2026-05-12 07:21 ·北京 ·优质互联网领域创作者

兄弟们，Claude Opus 蒸馏 Qwen3.6-35B-A3B 来了——Qwopus3.6-35B-A3B-v1，名字看着像是 Qwen 和 Opus 谈了场恋爱生的孩子，跑在单张 5090 上能飙到 161.9 tok/s

模型主页：huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1

Qwen3.6-35B-A3B 底模是什么

总参数 35B ，实际激活参数只有 3B
共有 256 个专家（experts）
原生支持 262k 超长上下文
架构特点： Gated DeltaNet 线性注意力 + 标准门控注意力混合
定位：高性能 Agent 编码、深度推理、多模态任务
对比同门 27B 稠密版，吞吐直接起飞

MoE 架构的好处在这里体现得很明显：推理时只激活一小部分参数，速度快、显存省

Base Model Benchmark 精调做了什么

Jackrong 在Qwen3.6-35B-A3B上用三阶段课程学习 SFT 做了精调：

第一阶段（格式建立）
短到中等长度的格式稳定推理样本，主要任务是把输出格式和基本推理路径固定下来，避免底模的风格被破坏

第二阶段（复杂度提升 + 多教师蒸馏）
逐步加大复杂推理样本比例，蒸馏数据来自一个 27B 教师模型——刻意选了跟底模风格接近的，防止能力跨度太大导致学不进去

第三阶段（长上下文强化 + 抗漂移）
强化长上下文推理，同时保留 10% 短样本回放，防止模型忘掉基本指令跟随能力（灾难性遗忘）

训练方法：LoRA 精调，可训参数约占总参数的 9%

❝ 作者自己也写了：9% 是个有风险的配置——MoE 架构下这么高的可训参数比例，训练不稳定和权重合并冲突的概率会显著上升

关键测评数据

Evaluation Screenshot 1

Evaluation Screenshot 2

Evaluation Screenshot 3

Evaluation Screenshot 4

Evaluation Screenshot 5

Evaluation Screenshot 6

速度是最大亮点：

RTX 5090 单卡 平均 161.9 tok/s
比同量级 27B 密集模型快 2.6 倍
对消费级单卡来说，这个吞吐率相当惊人

特别擅长的场景：

一键生成 HTML/CSS 前端 ：评测报告说这是目前最强的开源 one-shot 前端生成模型之一，生成的页面带复杂微交互和动效组件，功能完整、可直接用
复杂推理 + 长上下文 JSON 提取 ：修复了早期版本的 "thinking starvation" 问题，多步 Agent 规划的结构化输出更稳定
原生 Vision + Tool Calling ：如果要开视觉能力，需要把 mmproj.gguf 放到主 .gguf 同目录下
262K 上下文 + 显存基本不涨 ：归功于 Gated DeltaNet 的线性注意力，序列拉再长，显存也不会爆炸

还放出了 GGUF 量化版，本地跑非常省事

地址：Jackrong/Qwopus3.6-35B-A3B-v1-GGUF

⚠️ 一个坑要先说清楚

如果你想在本地做 LoRA 微调或合并权重，注意：

❝ PEFT/LoRA + Transformers 5.x + Unsloth 补丁三者之间有已知兼容性问题

合并 LoRA 权重时可能报错，类似：

ModuleNotFoundError: Could not import module 'Qwen3_5MoeForContinualGeneration'

MoE 专家层的权重结构跟普通密集模型差很多，容易触发结构不匹配。如果要在本地精调，做好手动打补丁或降级特定库版本的心理准备

老章怎么看

这个模型的价值点在于：把 35B 规模的 MoE 在消费级单卡上跑出了接近专业级的吞吐

对做 UI 生成、Agent 编排、长上下文推理的开发者来说，这个模型值得试一试。精调质量加上 MoE 的速度优势，在同类社区模型里算是比较亮眼的

制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个，谢谢你看我的文章，我们下篇再见！

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴