当云厂商把按量计费玩成"刺客模式",一台32GB内存的Mac突然成了最硬核的省钱方案。

过去几周,AI编程工具的收费逻辑正在剧变。Anthropic试探着把Claude Code从低价套餐里砍掉,微软更直接——GitHub Copilot全面转向按量计费。那个靠"氛围编程"(vibe coding)随手糊个demo的低成本时代,正在快速终结。

打开网易新闻 查看精彩图片

但开发者没打算乖乖交钱。一个越来越响的声音是:能不能用本地小模型硬刚云端的旗舰大模型?

阿里刚发布的Qwen3.6-27B给出了一个挑衅式的答案。这家云巨头声称,这款模型能在32GB M系列Mac或24GB显存的GPU上跑起来,却拥有"旗舰级编程能力"。免费,但前提是硬件你已经买了。

这不是本地代码助手的第一次尝试。几个月前,Continue的VS Code插件就被用来做过代码补全和生成。但当时模型和软件栈都太嫩,能用,但打不过前沿大模型。

现在情况变了。"推理"能力让小模型可以通过"多想一会儿"来弥补体型差距;混合专家模型(mixture-of-experts)意味着交互体验不再需要每秒TB级的内存带宽;函数调用和工具调用能力的飞跃,让这些模型能真正操作代码库、命令行和网页。

这篇实操指南,就是来看怎么把Qwen3.6-27B这类本地模型部署成编程助手,以及有哪些智能体(agent)框架能配合它们干活。

硬件门槛:老Mac可能吃瘪

先泼一盆冷水。旧款M系列Mac可能会在智能体编程所需的长上下文上吃力。换成oMLX这类推理引擎或许能更好利用苹果硬件加速器,但效果因人而异。

本地跑大语言模型本身已经傻瓜化了:装推理引擎、下模型、通过API连应用。但代码助手有特殊之处——几个参数没调对,模型就会疯狂输出垃圾代码。

有些模型在不同场景下需要特定的超参数才能正常工作,Qwen3.6-27B也不例外。

阿里官方给出了氛围编程场景下的推荐参数:

上下文窗口要尽可能往大了设。简单说,上下文窗口决定模型单次请求能记住多少token。处理大型代码库时,这个数值直接决定模型能不能理解项目全貌。