用一块二手显卡通过5小时编程考题，Qwen3.5-35B-A3B做到了|rtx|tool|上下文|显卡|编程考题|调用|阶跃星辰

快速阅读：Qwen3.5-35B-A3B是阿里Qwen团队最新发布的MoE架构模型，单张RTX 3090即可流畅运行，速度超过100 token/s，并在真实编程测试中展现出接近中高级开发者水准的能力，在本地开源模型圈引起广泛讨论。

凌晨，一个人盯着屏幕，看着AI在5分钟内重建了一个完整的金融数据仪表板。他没有睡意。

这个人叫jslominski，一位有多年招聘经验的移动开发者。他有一套用了多年的面试题，“前AI时代”大概需要5小时完成，他用这道题测过很多候选人。现在，Qwen3.5-35B-A3B在他家里一台单卡RTX 3090的Linux服务器上，用了大约10分钟，通过了。

不是勉强过，是“strong pass”。

这个模型的架构有点反直觉。它叫35B，但每次前向推理实际激活的只有3B参数。MoE（Mixture of Experts）的意思是：模型有35B的知识储量，但每次回答问题时只调用其中一小部分专家网络。结果就是，你得到了一个大模型的知识深度，却只付出了小模型的计算成本。

MXFP4量化版本在3090上只占约22GB显存，速度超过100 token/s，131k上下文窗口，一张二手价700美元左右的消费级显卡就能跑。

这个组合，放在一年前根本不可想象。

有网友拿RTX 5090跑出了185 token/s。有人在M4 Max MacBook Pro上测出35 token/s的生成速度和800 token/s的prompt处理速度。有人用双RTX 3090跑122B的更大版本，仍然维持50 token/s。

各种硬件配置的数据在帖子下面涌现，大家抢着贴benchmark，气氛有点像发现了新大陆。

值得注意的细节：这个模型对推理参数非常敏感。有网友提到，按Qwen官方推荐的参数设置（temperature=0.6, top_p=0.95, top_k=20）运行时，tool calling效果和乱设参数时相比是“天壤之别”。还有人发现KV cache量化在长上下文下可能导致细微错误，需要谨慎。

工具调用（tool calling）的稳定性是这类测试里最容易翻车的地方。有人遇到模型陷入读取同一文件的循环无法自拔，有人报告tool schema传递时被本地服务器损坏。有观点认为，问题往往不在模型本身，而在于本地推理框架如何序列化和传递tool schema，云端API和本地部署的差异就藏在这里。

还有个实用建议反复被提及：agentic pipeline里的工具数量要尽量精简。有人把工具从11个减到5个，同等硬件下响应时间从5分钟降到1分钟。给模型30个工具“以防万一有用”，结果模型一半的token都花在决定不用哪个工具上了。

有人说，这是他自Mistral 7B发布以来最兴奋的一次开源模型体验。那个评价有点分量——Mistral 7B是2023年开源LLM圈的一个真正的分水岭。

当然，它不是GPT-5，也不是Claude Opus 4。更长的agentic session里是否会漂移、工具调用在50次循环之后是否还能保持连贯，目前还没有充分的数据。

简评：

凌晨三点，一个人在卧室里拥有了一个中高级程序员的全部产出能力，而代价是一张二手显卡的电费。这件事的意义不在于技术参数，在于权力地图的悄然重绘。云端API意味着依赖、审计、定价权旁落；本地部署意味着离线可用、数据不出门、规则你说了算。当“调用AI”从“付费服务”变成“自有资产”，真正的游戏才刚刚开始。

www.reddit.com/r/LocalLLaMA/comments/1rdxfdu/qwen3535ba3b_is_a_gamechanger_for_agentic_coding