Mac跑本地AI终于不烫了，Ollama这波更新省了32G内存

Ping值焦虑

2026-04-01 09:09 ·北京

Ollama 0.19 预览版来了，这次直接抱上了苹果 MLX 框架的大腿。

对用 Mac 跑本地大模型的用户来说，这相当于给车换了套更省油的发动机——统一内存的调度效率明显提升，缓存机制也做了重构。更实在的是新增了 NVFP4 压缩格式支持，部分模型的内存占用直接砍了一截。

如果你用的是 M5 芯片的新 Mac，还能额外解锁神经网络加速器，token 生成速度和首词响应都有提升。不过这个功能目前门槛不低：统一内存至少 32GB，首批只支持阿里开源的 350 亿参数 Qwen3.5 模型。

实际体验上，用 OpenClaw 这类私人助手、或者跑 Claude Code 和 Codex 写代码时，响应延迟会明显改善。MLX 作为苹果亲生的机器学习框架，本来就是为了让 Python 和 Swift 开发者能在本地高效跑 LLM，Ollama 这次算是把轮子装对了位置。

有用户升级后反馈，同样跑 Qwen3.5，之前风扇狂转的工况现在安静了不少——对笔记本用户来说，这可能比跑分数字更实在。

热门新闻