关于本地部署和量化,我之前写过不少:

今天聊一套让我眼前一亮的东西——来自同一个团队的三件套:JANG + vMLX + MLX Studio,这可能是目前最能打的方案

它们仨是啥关系?

先别被三个名字搞晕了

如果你玩过 PC 端的 GGUF + llama.cpp + Open WebUI,这三个的关系你一眼就懂:

层次

PC 端类比

Mac 端(这套)

量化格式

GGUF

JANG

推理引擎

llama.cpp

vMLX

桌面应用

Open WebUI

MLX Studio

简单说:JANG 把大模型压小,vMLX 把它跑快,MLX Studio 给你一个漂亮的界面。三件套,一条龙。

JANG:MLX 的量化救星

先聊最底层的 JANG,官方管自己叫"The GGUF for MLX"

说白了,就是一种混合精度量化方案

打开网易新闻 查看精彩图片

JANG 的聪明之处在于:对不同层给不同精度

  • Attention 层:保留 5~8 bit(不敢动)

  • MLP 层:压到 2~4 bit(这里水分多,使劲压)

  • 平均额外开销:只多 0.3 bit

效果有多猛?看这组数据——230B 参数的 MiniMax M2.5 为例:

量化方式

大小

MMLU(200 题)

JANG_2L(2bit 混合)82.5 GB74%

MLX 4-bit

119.8 GB

26.5%

MLX 3-bit

93 GB

24.5%

MLX 2-bit

68 GB

25%

MLX 在各种 bit 下都只有 25% 左右——纯随机猜测水平,模型等于报废了。JANG 的 2bit 混合版不但活得好好的,还拿了 74%,体积反而更小。

这差距也太离谱了

打开网易新闻 查看精彩图片

更夸张的是 397B 参数的 Qwen3.5:

  • JANG_1L:112 GB,塞进 128 GB MacBook Pro,MMLU 86.5%

  • MLX 2-bit / 3-bit:NaN,直接寄

  • MLX 4-bit:需要约 280 GB,地球上没几台 Mac 装得下

397B 模型在笔记本上跑起来了——这句话放两年前说出来怕是要被当成疯子。

打开网易新闻 查看精彩图片

所有量化好的模型都放在 HuggingFace 的 JANGQ-AI 上,下载即用。想自己量化的话,代码在 github.com/jjang-ai/jangq,Apache 2.0 开源。

打开网易新闻 查看精彩图片

有了好的量化模型,还得有个快引擎

vMLX 就是干这个的

安装极简:

pip install vmlx
vmlx serve mlx-community/Qwen3-8B-4bit

启动后在本地http://0.0.0.0:8000提供 OpenAI + Anthropic 兼容 API,Claude Code、Anthropic SDK 这些客户端都能直接接

打开网易新闻 查看精彩图片

vMLX 最硬核的卖点是它的五层缓存栈——其他 Mac 端引擎最多有一两层,vMLX 全给你堆满了:

  1. 前缀缓存:对话中重复的部分只算一次

  2. 分页 KV 缓存:多个对话同时驻留,切换不驱逐

  3. KV 缓存量化:q4/q8 压缩,节省 4~8 倍内存

  4. 持续批处理:最多 256 个并发序列

  5. 磁盘缓存:重启后立即恢复,不用重新算

五层叠加的结果就是,首个 Token 的响应速度碾压同类:

上下文长度

vMLX

其他引擎

快多少

2.5K

0.05s

0.49s

9.7×

10K

0.08s

6.12s

76×

100K

0.65s

131s

224×

100K 上下文,别的引擎要等两分多钟,vMLX 不到一秒。我第一反应是"不可能",但这是实测的 TTFT(Time to First Token),五层缓存叠加确实恐怖。

除了缓存,还有几个值得一提的特性:

  • 推测解码:小模型打草稿 + 大模型验证,提速 20~90%

  • Mamba / SSM 混合架构支持:Nemotron-H 这些奇葩架构只有 vMLX 能跑

  • 20+ 内置 Agent 工具:文件读写、代码搜索、Shell 执行、Git 操作、网页搜索——全部本地运行

最后这点很有意思。vMLX 是目前唯一把 Agentic 工具内置到本地引擎里的方案,不用额外配 MCP 服务器,模型直接就能读文件、执行命令、搜索代码库。这个思路比 Ollama、LM Studio 激进得多。

打开网易新闻 查看精彩图片

项目地址:github.com/jjang-ai/vmlx,Apache 2.0 开源。

MLX Studio:不碰命令行也能玩

如果你觉得命令行太折腾,MLX Studio就是给你准备的——vMLX 引擎的完整 GUI 应用,永久免费。

MLX Studio 主界面——聊天、Agent 工具、图像生成一体化
打开网易新闻 查看精彩图片
MLX Studio 主界面——聊天、Agent 工具、图像生成一体化

该有的全有了:

对话:流式多轮对话、折叠式思维链展示(DeepSeek R1、Qwen3、GLM)、拖拽图片做视觉分析、语音朗读回复。

图像生成:5 个生成模型(Flux Schnell/Dev、Z-Image Turbo、Klein 4B/9B)+ 4 个编辑模型(Qwen Image Edit、Flux Kontext、Flux Fill、Flux Klein Edit),全部本地跑,零 API 费用。

模型管理:内置 HuggingFace 浏览器一键下载、GGUF → MLX 转换器(支持 JANG 混合精度)、菜单栏快捷切换模型。

API 集成:同时提供 OpenAI 和 Anthropic 端点,支持 Claude Code 等客户端直接对接。原生 MCP 支持,可以挂外部工具。

打开网易新闻 查看精彩图片

老实说,从功能完整度来看,MLX Studio 比之前我试过的 oMLX 丰富不少,尤其是图像生成和 Agent 工具这块,oMLX 是没有的。不过 oMLX 胜在轻量简洁,两者定位不太一样。

官网:mlx.studio

总结

这三件套解决的核心问题就一个:在 Apple Silicon Mac 上把本地 AI 的体验拉满

  • JANG解决"装不下"——128GB Mac 跑 397B 模型,MLX 标准量化做不到

  • vMLX解决"跑不快"——五层缓存栈,100K 上下文快 224 倍

  • MLX Studio解决"用不了"——图文生成、语音对话、Agent 编程,一个 App 搞定

三个项目全部 Apache 2.0 开源,全部免费。

有 Mac 跑本地模型需求的朋友,真的值得试试。

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!