打开网易新闻 查看精彩图片
Ollama 0.19 预览版来了,这次直接抱上了苹果 MLX 框架的大腿。
打开网易新闻 查看精彩图片
对用 Mac 跑本地大模型的用户来说,这相当于给车换了套更省油的发动机——统一内存的调度效率明显提升,缓存机制也做了重构。更实在的是新增了 NVFP4 压缩格式支持,部分模型的内存占用直接砍了一截。
打开网易新闻 查看精彩图片
如果你用的是 M5 芯片的新 Mac,还能额外解锁神经网络加速器,token 生成速度和首词响应都有提升。不过这个功能目前门槛不低:统一内存至少 32GB,首批只支持阿里开源的 350 亿参数 Qwen3.5 模型。
实际体验上,用 OpenClaw 这类私人助手、或者跑 Claude Code 和 Codex 写代码时,响应延迟会明显改善。MLX 作为苹果亲生的机器学习框架,本来就是为了让 Python 和 Swift 开发者能在本地高效跑 LLM,Ollama 这次算是把轮子装对了位置。
有用户升级后反馈,同样跑 Qwen3.5,之前风扇狂转的工况现在安静了不少——对笔记本用户来说,这可能比跑分数字更实在。