Mac跑MiniMax-M2.7，2条路径对比|mac|minimax|内存|开源模型|磁盘|路由器

今天聊一个很多 Mac 用户关心的问题：MiniMax-M2.7 怎么在 Mac 上跑起来？

MiniMax-M2.7 是什么来头？

先简单回顾一下

M2.7 是 MiniMax 最新的开源大模型，MoE 架构，总参数 228.7B，每 token 激活约 10B 参数，192K 上下文

这货最亮眼的几个数据：

**SWE-Pro 56.22%**，和 GPT-5.3-Codex 打平
MLE Bench Lite 66.6%奖牌率，仅次于 Opus-4.6 和 GPT-5.4
原生支持 Agent Teams，多智能体协作
Always-reasoning 模式，始终开启思考链

问题是——228B 参数，普通人怎么跑？答案是量化。但 MiniMax 的量化比一般模型坑多得多

为什么标准量化在 MiniMax 上翻车？

这是写这篇文章最想说的一件事：标准 MLX 均匀量化在 MiniMax-M2.7 上完全失效——MMLU 直接降到 ~25%，基本等于随机猜

原因在于 MoE 架构的路由器（Router Gate）

均匀量化连路由器一起压了，导致 token 被分配到错误的专家上，整个模型就废了

所以 Mac 用户想跑 M2.7，目前只有两条靠谱的路

路径一：JANGTQ + MLX Studio（推荐！）

JANGTQ（JANG TurboQuant）是目前最小体积、最高质量的 M2.7 Apple Silicon 量化方案，来自 JANGQ-AI 团队

核心思路：混合精度量化。路由专家 MLP（占 98% 参数）用 2-bit codebook + Hadamard 旋转压缩，而 Attention、共享专家、Router Gate 保持 8-bit 或 fp16。

硬核数据：

指标

数值

磁盘占用

56.5 GB

GPU 显存

56.5 GB

MMLU（200题）

91.5%

速度（M3 Ultra）

~44 tok/s

你没看错——2-bit 量化，只要 56.5GB，MMLU 居然能打到 91.5%。对比标准 MLX 量化的 ~25%，这差距简直是天壤之别

怎么跑：

最简单的方式是用 MLX Studio（内置了 JANGTQ 运行时和 Metal 内核）：

命令行方式也行：

pip install jang-tools

from huggingface_hub import snapshot_download
from jang_tools.load_jangtq import load_jangtq_model
from mlx_lm import generate

 model_path = snapshot_download("JANGQ-AI/MiniMax-M2.7-JANGTQ")
model, tokenizer = load_jangtq_model(model_path)

 messages = [{"role": "user", "content": "用5句话解释光合作用"}]
prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
out = generate(model, tokenizer, prompt, max_tokens=600, verbose=True)

 # 剥离推理链获取最终答案
if""in out:
    out = out.split("")[-1].strip()
print(out)

硬件要求：

机器

最低内存

预期速度

M3 Ultra / M2 Ultra

96 GB

~44 tok/s

M4 Max

96 GB

~35-40 tok/s

M4 Pro

64 GB