Mac 用户本地跑大模型，这可能是目前最能打的方案

Ai学习的老章

2026-04-01 21:24 ·北京 ·优质互联网领域创作者

关于本地部署和量化，我之前写过不少：

今天聊一套让我眼前一亮的东西——来自同一个团队的三件套：JANG + vMLX + MLX Studio，这可能是目前最能打的方案

它们仨是啥关系？

先别被三个名字搞晕了

如果你玩过 PC 端的 GGUF + llama.cpp + Open WebUI，这三个的关系你一眼就懂：

层次

PC 端类比

Mac 端（这套）

量化格式

GGUF

JANG

推理引擎

llama.cpp

vMLX

桌面应用

Open WebUI

MLX Studio

简单说：JANG 把大模型压小，vMLX 把它跑快，MLX Studio 给你一个漂亮的界面。三件套，一条龙。

JANG：MLX 的量化救星

先聊最底层的 JANG，官方管自己叫"The GGUF for MLX"

说白了，就是一种混合精度量化方案

JANG 的聪明之处在于：对不同层给不同精度

Attention 层：保留 5~8 bit（不敢动）
MLP 层：压到 2~4 bit（这里水分多，使劲压）
平均额外开销：只多 0.3 bit

效果有多猛？看这组数据——230B 参数的 MiniMax M2.5 为例：

量化方式

大小

MMLU（200 题）

JANG_2L（2bit 混合）82.5 GB74%

MLX 4-bit

119.8 GB

26.5%

MLX 3-bit

93 GB

24.5%

MLX 2-bit

68 GB

25%

MLX 在各种 bit 下都只有 25% 左右——纯随机猜测水平，模型等于报废了。JANG 的 2bit 混合版不但活得好好的，还拿了 74%，体积反而更小。

这差距也太离谱了

更夸张的是 397B 参数的 Qwen3.5：

JANG_1L：112 GB，塞进 128 GB MacBook Pro，MMLU 86.5%
MLX 2-bit / 3-bit：NaN，直接寄
MLX 4-bit：需要约 280 GB，地球上没几台 Mac 装得下

397B 模型在笔记本上跑起来了——这句话放两年前说出来怕是要被当成疯子。

所有量化好的模型都放在 HuggingFace 的 JANGQ-AI 上，下载即用。想自己量化的话，代码在 github.com/jjang-ai/jangq，Apache 2.0 开源。

有了好的量化模型，还得有个快引擎

vMLX 就是干这个的

安装极简：

pip install vmlx
vmlx serve mlx-community/Qwen3-8B-4bit

启动后在本地http://0.0.0.0:8000提供 OpenAI + Anthropic 兼容 API，Claude Code、Anthropic SDK 这些客户端都能直接接

vMLX 最硬核的卖点是它的五层缓存栈——其他 Mac 端引擎最多有一两层，vMLX 全给你堆满了：

前缀缓存：对话中重复的部分只算一次
分页 KV 缓存：多个对话同时驻留，切换不驱逐
KV 缓存量化：q4/q8 压缩，节省 4~8 倍内存
持续批处理：最多 256 个并发序列
磁盘缓存：重启后立即恢复，不用重新算

五层叠加的结果就是，首个 Token 的响应速度碾压同类：

上下文长度

vMLX

其他引擎

快多少

2.5K

0.05s

0.49s

9.7×

10K

0.08s

6.12s

76×

100K

0.65s

131s

224×

100K 上下文，别的引擎要等两分多钟，vMLX 不到一秒。我第一反应是"不可能"，但这是实测的 TTFT（Time to First Token），五层缓存叠加确实恐怖。

除了缓存，还有几个值得一提的特性：

推测解码：小模型打草稿 + 大模型验证，提速 20~90%
Mamba / SSM 混合架构支持：Nemotron-H 这些奇葩架构只有 vMLX 能跑
20+ 内置 Agent 工具：文件读写、代码搜索、Shell 执行、Git 操作、网页搜索——全部本地运行

最后这点很有意思。vMLX 是目前唯一把 Agentic 工具内置到本地引擎里的方案，不用额外配 MCP 服务器，模型直接就能读文件、执行命令、搜索代码库。这个思路比 Ollama、LM Studio 激进得多。

项目地址：github.com/jjang-ai/vmlx，Apache 2.0 开源。

MLX Studio：不碰命令行也能玩

如果你觉得命令行太折腾，MLX Studio就是给你准备的——vMLX 引擎的完整 GUI 应用，永久免费。

MLX Studio 主界面——聊天、Agent 工具、图像生成一体化

该有的全有了：

对话：流式多轮对话、折叠式思维链展示（DeepSeek R1、Qwen3、GLM）、拖拽图片做视觉分析、语音朗读回复。

图像生成：5 个生成模型（Flux Schnell/Dev、Z-Image Turbo、Klein 4B/9B）+ 4 个编辑模型（Qwen Image Edit、Flux Kontext、Flux Fill、Flux Klein Edit），全部本地跑，零 API 费用。

模型管理：内置 HuggingFace 浏览器一键下载、GGUF → MLX 转换器（支持 JANG 混合精度）、菜单栏快捷切换模型。

API 集成：同时提供 OpenAI 和 Anthropic 端点，支持 Claude Code 等客户端直接对接。原生 MCP 支持，可以挂外部工具。

老实说，从功能完整度来看，MLX Studio 比之前我试过的 oMLX 丰富不少，尤其是图像生成和 Agent 工具这块，oMLX 是没有的。不过 oMLX 胜在轻量简洁，两者定位不太一样。

官网：mlx.studio

总结

这三件套解决的核心问题就一个：在 Apple Silicon Mac 上把本地 AI 的体验拉满。

JANG解决"装不下"——128GB Mac 跑 397B 模型，MLX 标准量化做不到
vMLX解决"跑不快"——五层缓存栈，100K 上下文快 224 倍
MLX Studio解决"用不了"——图文生成、语音对话、Agent 编程，一个 App 搞定

三个项目全部 Apache 2.0 开源，全部免费。

有 Mac 跑本地模型需求的朋友，真的值得试试。

制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个，谢谢你看我的文章，我们下篇再见！

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴