快速阅读:Qwen3.5-35B-A3B是阿里Qwen团队最新发布的MoE架构模型,单张RTX 3090即可流畅运行,速度超过100 token/s,并在真实编程测试中展现出接近中高级开发者水准的能力,在本地开源模型圈引起广泛讨论。
凌晨,一个人盯着屏幕,看着AI在5分钟内重建了一个完整的金融数据仪表板。他没有睡意。
这个人叫jslominski,一位有多年招聘经验的移动开发者。他有一套用了多年的面试题,“前AI时代”大概需要5小时完成,他用这道题测过很多候选人。现在,Qwen3.5-35B-A3B在他家里一台单卡RTX 3090的Linux服务器上,用了大约10分钟,通过了。
不是勉强过,是“strong pass”。
这个模型的架构有点反直觉。它叫35B,但每次前向推理实际激活的只有3B参数。MoE(Mixture of Experts)的意思是:模型有35B的知识储量,但每次回答问题时只调用其中一小部分专家网络。结果就是,你得到了一个大模型的知识深度,却只付出了小模型的计算成本。
MXFP4量化版本在3090上只占约22GB显存,速度超过100 token/s,131k上下文窗口,一张二手价700美元左右的消费级显卡就能跑。
这个组合,放在一年前根本不可想象。
有网友拿RTX 5090跑出了185 token/s。有人在M4 Max MacBook Pro上测出35 token/s的生成速度和800 token/s的prompt处理速度。有人用双RTX 3090跑122B的更大版本,仍然维持50 token/s。
各种硬件配置的数据在帖子下面涌现,大家抢着贴benchmark,气氛有点像发现了新大陆。
值得注意的细节:这个模型对推理参数非常敏感。有网友提到,按Qwen官方推荐的参数设置(temperature=0.6, top_p=0.95, top_k=20)运行时,tool calling效果和乱设参数时相比是“天壤之别”。还有人发现KV cache量化在长上下文下可能导致细微错误,需要谨慎。
工具调用(tool calling)的稳定性是这类测试里最容易翻车的地方。有人遇到模型陷入读取同一文件的循环无法自拔,有人报告tool schema传递时被本地服务器损坏。有观点认为,问题往往不在模型本身,而在于本地推理框架如何序列化和传递tool schema,云端API和本地部署的差异就藏在这里。
还有个实用建议反复被提及:agentic pipeline里的工具数量要尽量精简。有人把工具从11个减到5个,同等硬件下响应时间从5分钟降到1分钟。给模型30个工具“以防万一有用”,结果模型一半的token都花在决定不用哪个工具上了。
有人说,这是他自Mistral 7B发布以来最兴奋的一次开源模型体验。那个评价有点分量——Mistral 7B是2023年开源LLM圈的一个真正的分水岭。
当然,它不是GPT-5,也不是Claude Opus 4。更长的agentic session里是否会漂移、工具调用在50次循环之后是否还能保持连贯,目前还没有充分的数据。
简评:
凌晨三点,一个人在卧室里拥有了一个中高级程序员的全部产出能力,而代价是一张二手显卡的电费。 这件事的意义不在于技术参数,在于权力地图的悄然重绘。云端API意味着依赖、审计、定价权旁落;本地部署意味着离线可用、数据不出门、规则你说了算。当“调用AI”从“付费服务”变成“自有资产”,真正的游戏才刚刚开始。
www.reddit.com/r/LocalLLaMA/comments/1rdxfdu/qwen3535ba3b_is_a_gamechanger_for_agentic_coding
热门跟贴