兄弟们,Claude Opus 蒸馏 Qwen3.6-35B-A3B 来了——Qwopus3.6-35B-A3B-v1,名字看着像是 Qwen 和 Opus 谈了场恋爱生的孩子,跑在单张 5090 上能飙到 161.9 tok/s
模型主页:huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1
Qwen3.6-35B-A3B 底模是什么
总参数 35B ,实际激活参数只有 3B
共有 256 个专家(experts)
原生支持 262k 超长上下文
架构特点: Gated DeltaNet 线性注意力 + 标准门控注意力混合
定位:高性能 Agent 编码、深度推理、多模态任务
对比同门 27B 稠密版,吞吐直接起飞
MoE 架构的好处在这里体现得很明显:推理时只激活一小部分参数,速度快、显存省
Jackrong 在Qwen3.6-35B-A3B上用三阶段课程学习 SFT 做了精调:
第一阶段(格式建立)
短到中等长度的格式稳定推理样本,主要任务是把输出格式和基本推理路径固定下来,避免底模的风格被破坏
第二阶段(复杂度提升 + 多教师蒸馏)
逐步加大复杂推理样本比例,蒸馏数据来自一个 27B 教师模型——刻意选了跟底模风格接近的,防止能力跨度太大导致学不进去
第三阶段(长上下文强化 + 抗漂移)
强化长上下文推理,同时保留 10% 短样本回放,防止模型忘掉基本指令跟随能力(灾难性遗忘)
训练方法:LoRA 精调,可训参数约占总参数的 9%
❝ 作者自己也写了:9% 是个有风险的配置——MoE 架构下这么高的可训参数比例,训练不稳定和权重合并冲突的概率会显著上升关键测评数据
速度是最大亮点:
RTX 5090 单卡 平均 161.9 tok/s
比同量级 27B 密集模型快 2.6 倍
对消费级单卡来说,这个吞吐率相当惊人
特别擅长的场景:
一键生成 HTML/CSS 前端 :评测报告说这是目前最强的开源 one-shot 前端生成模型之一,生成的页面带复杂微交互和动效组件,功能完整、可直接用
复杂推理 + 长上下文 JSON 提取 :修复了早期版本的 "thinking starvation" 问题,多步 Agent 规划的结构化输出更稳定
原生 Vision + Tool Calling :如果要开视觉能力,需要把
mmproj.gguf放到主.gguf同目录下262K 上下文 + 显存基本不涨 :归功于 Gated DeltaNet 的线性注意力,序列拉再长,显存也不会爆炸
还放出了 GGUF 量化版,本地跑非常省事
地址:Jackrong/Qwopus3.6-35B-A3B-v1-GGUF
如果你想在本地做 LoRA 微调或合并权重,注意:
❝ PEFT/LoRA + Transformers 5.x + Unsloth 补丁三者之间有已知兼容性问题
合并 LoRA 权重时可能报错,类似:
ModuleNotFoundError: Could not import module 'Qwen3_5MoeForContinualGeneration'
MoE 专家层的权重结构跟普通密集模型差很多,容易触发结构不匹配。如果要在本地精调,做好手动打补丁或降级特定库版本的心理准备
老章怎么看
这个模型的价值点在于:把 35B 规模的 MoE 在消费级单卡上跑出了接近专业级的吞吐
对做 UI 生成、Agent 编排、长上下文推理的开发者来说,这个模型值得试一试。精调质量加上 MoE 的速度优势,在同类社区模型里算是比较亮眼的
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!
热门跟贴