前两天刷到Mac群里疯传一个链接,点开是段实测视频:M3 Max笔记本,没接网、没开云服务,纯本地跑通Qwen 3.5-Plus大模型,打字像聊天一样顺。不是演示,是录屏,全程没断过。

打开网易新闻 查看精彩图片

8 tokens/秒听起来不多,但中文就是每秒敲出十来个字,写个朋友圈、改个邮件、问个问题都够用。不用等,不用输API密钥,也不用担心对话被传走。

以前不是没试过,Ollama跑起来像拖砖头,llama.cpp调半天才吐一个词,图都传不进去。这次连图片一起喂——8K截图+文字提问,5秒就回,不是靠CPU硬扛,是内存直接通到底。

当然也不是谁都能上。M1、M2、M3基础版带不动,32GB内存直接崩溃。Qwen3.5-Plus是唯一能跑的,Llama3、DeepSeek?装不上。算数学题长点就错,但聊天气、写文案,几乎看不出差别。

有人测了三次,每次都是同一台机器,同一份模型,同一段prompt,结果差不多。不像有些活儿,看着热闹,一上手就掉链子。

这波不是啥革命,就是终于有个人把该踩的坑踩明白了,把能压的参数压对了,让Mac真成了“能干活的AI盒子”。

它就在那儿,开着,跑着,不声不响。