关于本地部署和量化,我之前写过不少:
今天聊一套让我眼前一亮的东西——来自同一个团队的三件套:JANG + vMLX + MLX Studio,这可能是目前最能打的方案
它们仨是啥关系?
先别被三个名字搞晕了
如果你玩过 PC 端的 GGUF + llama.cpp + Open WebUI,这三个的关系你一眼就懂:
层次
PC 端类比
Mac 端(这套)
量化格式
GGUF
JANG
推理引擎
llama.cpp
vMLX
桌面应用
Open WebUI
MLX Studio
简单说:JANG 把大模型压小,vMLX 把它跑快,MLX Studio 给你一个漂亮的界面。三件套,一条龙。
JANG:MLX 的量化救星
先聊最底层的 JANG,官方管自己叫"The GGUF for MLX"
说白了,就是一种混合精度量化方案
JANG 的聪明之处在于:对不同层给不同精度
Attention 层:保留 5~8 bit(不敢动)
MLP 层:压到 2~4 bit(这里水分多,使劲压)
平均额外开销:只多 0.3 bit
效果有多猛?看这组数据——230B 参数的 MiniMax M2.5 为例:
量化方式
大小
MMLU(200 题)
JANG_2L(2bit 混合)82.5 GB74%
MLX 4-bit
119.8 GB
26.5%
MLX 3-bit
93 GB
24.5%
MLX 2-bit
68 GB
25%
MLX 在各种 bit 下都只有 25% 左右——纯随机猜测水平,模型等于报废了。JANG 的 2bit 混合版不但活得好好的,还拿了 74%,体积反而更小。
这差距也太离谱了
更夸张的是 397B 参数的 Qwen3.5:
JANG_1L:112 GB,塞进 128 GB MacBook Pro,MMLU 86.5%
MLX 2-bit / 3-bit:NaN,直接寄
MLX 4-bit:需要约 280 GB,地球上没几台 Mac 装得下
397B 模型在笔记本上跑起来了——这句话放两年前说出来怕是要被当成疯子。
所有量化好的模型都放在 HuggingFace 的 JANGQ-AI 上,下载即用。想自己量化的话,代码在 github.com/jjang-ai/jangq,Apache 2.0 开源。
有了好的量化模型,还得有个快引擎
vMLX 就是干这个的
安装极简:
pip install vmlx
vmlx serve mlx-community/Qwen3-8B-4bit
启动后在本地http://0.0.0.0:8000提供 OpenAI + Anthropic 兼容 API,Claude Code、Anthropic SDK 这些客户端都能直接接
vMLX 最硬核的卖点是它的五层缓存栈——其他 Mac 端引擎最多有一两层,vMLX 全给你堆满了:
前缀缓存:对话中重复的部分只算一次
分页 KV 缓存:多个对话同时驻留,切换不驱逐
KV 缓存量化:q4/q8 压缩,节省 4~8 倍内存
持续批处理:最多 256 个并发序列
磁盘缓存:重启后立即恢复,不用重新算
五层叠加的结果就是,首个 Token 的响应速度碾压同类:
上下文长度
vMLX
其他引擎
快多少
2.5K
0.05s
0.49s
9.7×
10K
0.08s
6.12s
76×
100K
0.65s
131s
224×
100K 上下文,别的引擎要等两分多钟,vMLX 不到一秒。我第一反应是"不可能",但这是实测的 TTFT(Time to First Token),五层缓存叠加确实恐怖。
除了缓存,还有几个值得一提的特性:
推测解码:小模型打草稿 + 大模型验证,提速 20~90%
Mamba / SSM 混合架构支持:Nemotron-H 这些奇葩架构只有 vMLX 能跑
20+ 内置 Agent 工具:文件读写、代码搜索、Shell 执行、Git 操作、网页搜索——全部本地运行
最后这点很有意思。vMLX 是目前唯一把 Agentic 工具内置到本地引擎里的方案,不用额外配 MCP 服务器,模型直接就能读文件、执行命令、搜索代码库。这个思路比 Ollama、LM Studio 激进得多。
项目地址:github.com/jjang-ai/vmlx,Apache 2.0 开源。
MLX Studio:不碰命令行也能玩
如果你觉得命令行太折腾,MLX Studio就是给你准备的——vMLX 引擎的完整 GUI 应用,永久免费。
该有的全有了:
对话:流式多轮对话、折叠式思维链展示(DeepSeek R1、Qwen3、GLM)、拖拽图片做视觉分析、语音朗读回复。
图像生成:5 个生成模型(Flux Schnell/Dev、Z-Image Turbo、Klein 4B/9B)+ 4 个编辑模型(Qwen Image Edit、Flux Kontext、Flux Fill、Flux Klein Edit),全部本地跑,零 API 费用。
模型管理:内置 HuggingFace 浏览器一键下载、GGUF → MLX 转换器(支持 JANG 混合精度)、菜单栏快捷切换模型。
API 集成:同时提供 OpenAI 和 Anthropic 端点,支持 Claude Code 等客户端直接对接。原生 MCP 支持,可以挂外部工具。
老实说,从功能完整度来看,MLX Studio 比之前我试过的 oMLX 丰富不少,尤其是图像生成和 Agent 工具这块,oMLX 是没有的。不过 oMLX 胜在轻量简洁,两者定位不太一样。
官网:mlx.studio
总结
这三件套解决的核心问题就一个:在 Apple Silicon Mac 上把本地 AI 的体验拉满。
JANG解决"装不下"——128GB Mac 跑 397B 模型,MLX 标准量化做不到
vMLX解决"跑不快"——五层缓存栈,100K 上下文快 224 倍
MLX Studio解决"用不了"——图文生成、语音对话、Agent 编程,一个 App 搞定
三个项目全部 Apache 2.0 开源,全部免费。
有 Mac 跑本地模型需求的朋友,真的值得试试。
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!
热门跟贴