「用3B激活参数,做出别人27B的活。」这是阿里千问团队给Qwen3.6-35B-A3B的定调。4月16日,这款混合专家(MoE,Mixture-of-Experts)模型开源,总参数量350亿,但每次只叫醒30亿干活——稀疏架构的精髓就在这儿。

IT之家注意到,官方把"智能体编程能力"放在C位宣传。这不是随便找个卖点,而是精准戳中了开发者痛点:本地跑不动大模型,API调用又烧钱,中间地带长期空白。

打开网易新闻 查看精彩图片

一张图看懂:为什么3B能顶27B

MoE架构的核心 trick(技巧)是"按需唤醒"。350亿参数像一支庞大的专家库,面对具体任务时,路由网络只挑选最相关的30亿参数参与计算。这相当于让一位全科大夫坐诊,背后站着各科室专家团——病人描述症状,系统自动摇来对应科室。

对比传统稠密模型(Dense Model),后者每次推理必须调动全部参数,就像不管感冒还是骨折,全院医生集体出诊。Qwen3.5-27B就是这种"全家桶"模式,27亿参数一个不落。

结果很打脸:Qwen3.6-35B-A3B在多项编程基准上反超了这位"全家桶"前辈。更骚的是,它还大幅超越了自家前代Qwen3.5-35B-A3B——同样是MoE,同样是35B总参/3B激活,代际提升肉眼可见。

具体能干什么?官方列了三个集成场景:

• OpenClaw(原Moltbot/Clawdbot):可自托管的开源AI编码智能体,接上百炼API就能在终端跑完整工作流

• Qwen Code:阿里自家终端智能体,对千问系列深度优化

• Claude Code:通过兼容Anthropic API协议,蹭上Claude的生态

一个模型同时打通三条链路,野心不小。

多模态这块,Claude Sonnet 4.5成了背景板

Qwen3.6系列原生支持多模态,35B-A3B版本把这项能力完整继承。官方benchmark显示,在大多数视觉语言任务上,它已经和Claude Sonnet 4.5打平,部分任务反超。

空间智能是亮点:RefCOCO得分92.0,ODInW13得分50.8。这两个指标测的是"看图指物"的精准度——给张室内照片,模型能准确标出"沙发左边第三个靠垫"那种。

这对机器人、AR导航、智能仓储是刚需。以前这类能力集中在闭源大模型里,现在30亿激活参数就能开箱即用,成本曲线陡然下压。

更隐蔽的升级是preserve_thinking功能:在多轮对话中保留完整思维链。做智能体任务时,这相当于给模型配了个"工作备忘录",前后文不丢失,推理连贯性大幅提升。

开源策略:把"轻量化"做成护城河

阿里这次 release(发布)的路径很清晰:Hugging Face和ModelScope同步放权重,Qwen Studio即时可玩,阿里云百炼API以qwen3.6-flash名称上线。三条通道覆盖本地部署、云端调用、快速体验全场景。

API层面同时兼容OpenAI和Anthropic协议,这是老练的生态卡位。开发者不用改代码,直接平替——降低迁移成本,就是提高 adoption(采用率)。

但真正的棋眼在"规模"二字。35B总参/3B激活这个档位,恰好踩在本地部署的甜蜜点上:

• 消费级显卡能跑(显存压力可控)

• 性能又不至于太寒酸(编程、多模态都能打)

• 企业私有化部署成本可接受

对比一下:Qwen3.5-27B稠密模型,本地跑起来费劲;更大的闭源模型,API账单吓人。35B-A3B卡在中间,像一把精准的手术刀。

阿里官方说,这是"该规模下模型能力的新标杆"。翻译一下:在这个参数档位,暂时没人能打得过。

开发者现在能做什么

如果你属于这几类人,建议直接上手:

第一,在找本地编程助手的个人开发者。OpenClaw+Qwen3.6-35B-A3B的组合,终端体验已经逼近云端大模型,且数据不出本机。

第二,做多模态应用的产品团队。空间智能能力开源可用,AR导航、视觉客服、工业质检等场景值得重新评估技术栈。

第三,受限于API预算的初创公司。百炼的qwen3.6-flash定价策略尚未公布,但参考MoE架构的推理成本优势,大概率比同能力稠密模型便宜一个数量级。

具体入口:Qwen Studio(chat.qwen.ai)即时体验,Hugging Face/ModelScope下载权重,百炼API文档查集成细节。技术博客有OpenClaw、Qwen Code、Claude Code的详细对接脚本。

一个值得关注的细节:官方把"智能体编程"而非"通用对话"作为首要卖点。这说明千问团队的产品判断是——大模型竞争已从"谁能聊天"转向"谁能干活"。代码生成、工具调用、多步任务执行,这些硬核能力才是下一阶段的差异化战场。

30亿激活参数做到这个程度,MoE架构的工程优化空间可能还远未触顶。阿里预告Qwen3.6开源家族将持续扩展,下一个 release 会不会把激活参数压到1B级别、同时保持同等能力?这不是没有可能。

对开发者来说,现在最务实的动作是:把Qwen3.6-35B-A3B接进你的工作流,测测它在你具体场景下的表现。benchmark是别人的,latency(延迟)和准确率是自己的。开源模型的价值,终究要在代码里兑现。