M3 Max跑Qwen3.5-Plus，8字/秒不卡顿，真能本地用了。

小兔子发现大事情

2026-02-22 19:28 ·黑龙江

前两天刷到Mac群里疯传一个链接，点开是段实测视频：M3 Max笔记本，没接网、没开云服务，纯本地跑通Qwen 3.5-Plus大模型，打字像聊天一样顺。不是演示，是录屏，全程没断过。

8 tokens/秒听起来不多，但中文就是每秒敲出十来个字，写个朋友圈、改个邮件、问个问题都够用。不用等，不用输API密钥，也不用担心对话被传走。

以前不是没试过，Ollama跑起来像拖砖头，llama.cpp调半天才吐一个词，图都传不进去。这次连图片一起喂——8K截图+文字提问，5秒就回，不是靠CPU硬扛，是内存直接通到底。

当然也不是谁都能上。M1、M2、M3基础版带不动，32GB内存直接崩溃。Qwen3.5-Plus是唯一能跑的，Llama3、DeepSeek？装不上。算数学题长点就错，但聊天气、写文案，几乎看不出差别。

有人测了三次，每次都是同一台机器，同一份模型，同一段prompt，结果差不多。不像有些活儿，看着热闹，一上手就掉链子。

这波不是啥革命，就是终于有个人把该踩的坑踩明白了，把能压的参数压对了，让Mac真成了“能干活的AI盒子”。

它就在那儿，开着，跑着，不声不响。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴