国产双开源：让Mac成为你的私人AI工作站|gui|mac|人工智能模型|双开源|调用

编辑｜panda、+0

2026 年 3 月底，Ollama 发布了一则更新公告：其 Mac 版本的底层推理引擎，将从沿用多年的 llama.cpp 切换为苹果的 MLX 框架。

这条消息在开发者社区引发了激烈讨论，原因很简单：数字太好看了。在搭载 M5 芯片的 Mac 上，切换到 MLX 后，prefill 速度提升超过 57%，生成速度接近翻倍，部分场景下，生成第一个 token 的等待时间（TTFT）缩短至原先的四分之一。一位开发者在社区里写道，他的 Mac 的「解码速度提升了 93%」。

为什么性能提升如此之大？背后的原因其实并不神秘。Apple Silicon 采用的是统一内存架构，即 CPU、GPU 共享同一块物理内存，数据无需在不同存储池之间搬运。MLX 正是为这种架构专门设计的框架，因此天然获得了传统框架在 Mac 上得不到的底层优势。

从 M5 芯片开始，苹果还在每个 GPU 核心里嵌入了专门的矩阵乘法单元 Neural Accelerator，通过 Metal 4 的 TensorOps API 来调用，这是苹果首次在 GPU 层面提供可编程的、专属于 AI 推理的硬件加速。

Ollama 的这次选择，实际上是在向整个开发者生态发出一个明确信号：Apple Silicon + MLX 正在成为本地 AI 推理的主流路线，Mac 开始从「连接云端的终端」变成「独立运行 AI 的工作站」。基于此，用户甚至可以完全离线地使用 OpenClaw 和 Hermes Agent 等智能体。

然而，当这场迁徙热潮稍稍退去，一个更细节的问题浮出水面。MLX 目前支持的量化模式 W4A16 和 W8A16 只对模型「权重」进行了量化压缩，计算过程中的「激活值」仍然以 FP16 格式运行。这意味着，苹果专门为 INT8 运算设计的 Neural Accelerator 硬件，在现有 MLX 框架下并没有被完整调动。性能强劲又昂贵的硬件，用了一半，闲了一半。

就在这个时间节点，明略科技以两个开源项目递出了答案。一个叫Cider，一个叫Mano-P

Cider：为苹果补齐端侧 AI 生态

Cider 是明略科技自研并开源的端侧推理加速框架，构建于 MLX 之上，专为 macOS 与 Apple Silicon 设计。

仓库地址：https://github.com/Mininglamp-AI/cider

如果把 Apple Silicon 的推理过程想象成一条工厂流水线，MLX 目前的做法是：把原材料（模型权重）压缩成较小的规格运来，但到了加工环节（计算），还是用原来的精密工具在正常精度下操作。

Cider 的做法则是把加工环节本身也换成了适配压缩材料的专用工具：不仅让权重以更低精度存储，还让计算过程直接在 INT8 精度下执行，并借助 Metal 4 的 TensorOps API 调用 Apple GPU 里那块专门为此设计的硬件。

具体来说，Cider 提供了 MLX 原生框架缺失的两种量化推理模式。

其一是 W8A8：权重和激活值同时量化至 INT8，直接利用 Apple GPU 的 TensorOps 完成矩阵乘法，计算结束后再反量化回 FP16 输出。

其二是 W4A8：在 W8A8 的基础上进一步将权重压缩至 INT4，权重内存占用较 W8A8 减半。两种模式均以「融合算子」（fused kernel）实现，将量化、矩阵乘法、反量化三个步骤合并为一次 GPU 调度，避免了中间结果在显存里多次搬运的开销。

目前，W8A8/W4A8 激活量化功能在 Apple M5 Pro 上已稳定支持，M1-M4 则不支持。

再来看看实测数据。在单算子层面，以 10240 × 2560 的矩阵规模在 Apple M5 Pro 上进行测试，W8A8（Per-channel）模式相比原生 MLX W8A16 方案展现出显著的速度优势：在序列长度 M=1024 时速度提升 1.82 倍，M=4096 时提升 1.84 倍，而达到 M=8192 时则提升了 1.86 倍。

在真实 VLM 模型的端到端测试中，以 Qwen3-VL-2B 进行 chunked prefill 推理，W8A8 模式下整体 prefill 加速约 57%~61%。

这组数字之所以值得关注，还有一个维度：精度损失极小。以 Qwen3-8B 为例，W8A8（Per-channel）量化后的困惑度（PPL）为 9.756，与 FP16 原始精度（9.726）相比，差距仅为 0.03；同时其整体 Prefill 耗时从 FP16 的 179.9 秒大幅缩短至 123.5 秒，提速约 45%。也就是说，用极小的精度代价，换来了远超原精度方案的推理速度——这在量化领域并不常见。

Cider 并非某一个模型的专属工具，其服务对象涵盖了整个 MLX 生态。只要模型已经适配 MLX，开发者只需一行代码即可接入 Cider 加速：convert_model(model)。

Qwen、Llama、Mistral 等主流开源模型，以及 Qwen3-VL 等 VLM 模型，均可直接受益，接入过程无需修改模型结构。对于 VLM 场景，Cider 还内置了 OpenAI 兼容的推理服务接口，开发者可以直接在本地部署一个支持图文输入的推理服务，无需额外适配即可对接现有工具链；这对于需要在本地处理截图、文档或产品图的企业应用来说，是一个开箱即用的能力。但需要注意的是，针对 VLM 模型，为避免影响视觉编码器的精度，官方建议仅对 VLM 中的语言模型部分调用convert_model(language_model)。

值得一提的是，Cider 的量化加速仅作用于 prefill 阶段，decode 阶段会自动回落到原始权重进行推理，切换零开销，对输出质量无任何影响。

Cider 还包含一个实验性模块，方向更为大胆。在 Apple 芯片的推理过程中，GPU 和 CPU 是主要的计算单元，而神经网络引擎（ANE，Apple Neural Engine）几乎全程闲置。Cider 的实验性 ANE+GPU 异构并行模块，尝试在 prefill 阶段将线性层的矩阵运算按输出维度拆分，ANE 负责约 65% 的通道，GPU 负责剩余 35%，两者并行运行后合并结果。在 M4 芯片上的 Qwen3-VL-2B prefill 的同步测试中，这种方案相比纯 GPU 推理带来了约 3%~17% 的速度提升。

这个探索仍处于早期阶段，尚未实现 MLX 惯用的延迟求值（lazy evaluation），且目前仅在 M4 上经过验证。但它揭示了一个更长远的意图：Mac 上每一块算力单元都可以用起来。我们十分期待明略团队未来能基于这一方向，带来更多突破性的研究发现与技术成果。

Mano-P：让你的 Mac 长出「手」

与 Cider 同步开源的，还有明略科技的 GUI-VLA 智能体模型 Mano-P 1.0。其中，Mano 是西班牙语里「手」的意思，P 代表 Private。其项目页面写到：「我们相信，个体和组织都能够创造属于自己的私有 AI，人机协同的美好世界即将到来。」

仓库地址：https://github.com/Mininglamp-AI/Mano-P

Mano-P 的核心能力是通过纯视觉理解，让 AI 直接看懂屏幕并操作图形界面（GUI），不依赖 CDP 协议或 HTML 解析，不局限于浏览器场景，桌面软件、Web 系统乃至更复杂的专业工具均可覆盖。

在全自动编程流水线中，它最直接的价值是替代人工完成 GUI 测试：Claude Code 写完代码，Mano-P 接手打开界面、点击验证、反馈结果，整个软件开发闭环不再需要人类介入。要知道，在常规的全自动编程流水线中，GUI 测试消耗的云端 token 占比超过 50%，Mano-P 端侧模型将这部分开销直接归零。

在 OSWorld 基准测试中，Mano-P 1.0-72B 以 58.2% 的成功率位列所有专用 GUI 智能体模型全球第一，领先第二名逾 13 个百分点；在 WebRetriever Protocol I 上，以 41.7 分超越 Gemini 2.5 Pro Computer Use（40.9）和 Claude 4.5 Computer Use（31.3）。

端侧方面，4B 量化模型在 Apple M4 Pro 上可实现 476 tokens/s prefill 和 76 tokens/s 解码、峰值内存仅 4.3GB，一台搭载 M4 芯片、32GB 内存的 Mac mini 即可本地运行，所有截图与任务数据不出设备。相比标准 PyTorch CPU 推理，其端侧推理提速 60 倍以上，且 8-bit 量化与全精度输出保持一致，坐标偏差严格控制在 1 像素以内。

而在 Apple M5 Pro + Cider 推理 SDK 组合下，Mano-P 1.0-4B 启用 Cider 的 W8A8 激活量化后，同一输入下 prefill 时间从 2.839s 降到 2.519s，prefill 约加速 12.7%。

Mano-P 与 Cider 配合落地的效果，也经过了一轮真实任务的严格测试。明略科技围绕其端到端自动化应用构建流水线 Mano-AFK 构建的五个 Web 应用（涵盖差旅分账、订单管理、家庭记账等场景），设计了一套包含 100 条任务的 CUA 基准，每条任务都区分「无 bug 版本」和「预注入 bug 版本」，考察模型能否正确判断应用是否可用。在搭载 MacBook Pro M5（16GB 内存）的设备上，Mano-P 在 W8A16 模式下准确率为 58.0%，而接入 Cider 的 W8A8 模式下准确率为 54.0%。

数据说明了一个值得正视的工程细节：在 16GB 内存的设备上，W8A8 模式需要同时保留原始权重与 INT8 权重，内存占用近似翻倍，在内存偏紧的情况下可能引发换页，抵消 prefill 阶段的加速收益。

官方建议在内存余量超出模型体积 4GB 以上的设备（如 32GB 或更高配置）上使用 W8A8，以充分发挥 Cider 的加速优势——这恰恰也是 Mano-P 推荐的标准硬件配置。这组数据的意义，不是说明 W8A8 在所有场景下都优于 W8A16，而是说明 Cider 与 Mano-P 的组合在真实任务中已经可以端到端跑通，性能的边界和适配条件也已经有了明确的工程结论。

文中视频链接：https://mp.weixin.qq.com/s/eLN0bUO-hGAxEwPFQ7zsjg

本视频展示 Mano-AFK 与 Cider 推理加速 SDK 的联合能力。Mano-AFK 从一句自然语言需求出发，自主完成需求澄清、架构设计、代码生成、本地部署，并在 E2E 测试环节调用由 Cider 加速的本地 Mano-P 视觉模型驱动真实浏览器完成 GUI 自动化测试；测试失败时自动定位缺陷、修复代码并重新验证，直至交付可运行的应用。Cider 提供 INT8 激活量化原语，让 Mano-P 在 Apple Silicon 上获得显著的 prefill 加速，整个「构建-测试-修复」闭环完全在本地执行，兼顾自主性、隐私与性能。

Mano-P 以 Apache 2.0 协议开源，支持商业使用与二次开发，完整技术栈（含训练方法、剪枝与量化方案）同样将后续开源，赋能广大企业或开发者基于自己的数据训练定制化 GUI Agent 模型。

更多详情可见我们之前的专题报道《全球第一，13 个 SOTA！我们找到了龙虾界掌管 GUI 的神》。

Cider + Mano-P = 快且实用的 Private AI

单独看 Cider，它是一个面向开发者的推理加速工具，受益的是所有跑在 Mac 上的 MLX 模型。单独看 Mano-P，它是一个 GUI 智能体，价值在于特定的自动化场景。

但把两者放在一起，指向的是同一件事：Private AI——让 AI 真正属于使用它的人，而不是服务提供商。

这个理念，在明略科技此前对 Mano-P 的阐述中已经有过完整表达，彼时称为 Personal AI。「AI for personal，不是说每个人可以用 AI，是每个人可以做 AI」。这句话的核心是 AI 的所有权问题。当所有人都调用同一个云端模型，AI 只是一种服务；而当模型跑在你自己的设备上、适应你的数据和场景，AI 才能成为真正意义上「属于你的工具」。

Private AI 是这一理念的延续和深化：Private 不只意味着私密，更意味着私有：数据私有、推理私有、能力私有。

Cider 解决的是「速度」问题：让端侧推理足够快，让本地运行不再是对云端的妥协，而是一个真实的工程选项。
Mano-P 解决的是「场景」问题：证明端侧 AI 可以在一个具体的、高价值的场景里真正可用。

两者叠加，才让「数据零上云」从安全口号变成可以被实际部署的工程方案：不调 API，不传截图，不花一分钱，成本可控、离线可用、数据完全自主。纯视觉感知与极速本地推理的结合，让数据隐私从一种承诺变成了物理隔离的必然。端侧不是缩水版 AI，而是下一阶段 AI 落地的重要形态！

这也是 Apple Silicon 生态里值得关注的一个位置。Apple 自身在 MLX 方向上持续加码；在刚结束的 ICLR 2026 大会上，Apple 在展位演示的核心内容之一，正是 MLX 在 MacBook Pro M5 上的本地 LLM 推理能力。

而 Cider 做的事，是在 Apple 官方生态已经建好的地基上，补齐了官方框架尚未覆盖的那一层：让 Apple 自家芯片里的专用硬件，被更充分地利用起来。用明略科技自己的说法：「我们拥抱了 Apple 的官方开源生态，并且比 Apple 原生框架把硬件潜能激发得更彻底。」

基于 Private AI 的未来……

在我们之前对明略集团副总裁，多模态首席科学家赵晨旭的采访中，他描述了一个即将到来的使用场景：假设你有一个公司内部的保密系统，需要让 AI 帮你操作。现有的方式，是把账号密码以明文写进 AI 的记忆文件里，安全隐患显而易见。

但如果模型跑在本地，就有了另一种可能：直接通过自然语言告诉它「把这个密码记进你的参数」，模型自动触发学习流程，把这段信息训练进自己的权重，而不是存成可以被读取的明文。你再问它密码，它说不知道；让它去登录，它却能做到。

这套能力，明略科技将其称为Auto Agent Learning。据了解，这也是他们即将公布的下一个技术方向。

Auto Agent Learning 要解决的核心问题是：如何让一个跑在本地的小模型，能够在用户自己的设备上，用自然语言持续更新参数，进而适应用户的私有场景、工作习惯和专属数据。

正如前文在探讨 Private AI 时所提及的，这不仅是隐私保护，更是对 AI 所有权的重新定义：你将告别传统的 AI 服务调用模式，转为培养一个完全专属的智能体；因为模型是基于你的个人数据与习惯进行本地演进的，它真正实现了从「属于你」向「更懂你」的跨越。它会跟着你的使用场景持续成长，最终蜕变为最契合你个人需求的专属形态。

Cider 和 Mano-P 是这条路上已经落地的两步棋。Cider 让本地推理足够快，让模型能在你的苹果设备上快速响应；Mano-P 让模型能看懂屏幕、操作界面，打通从「理解」到「行动」的最后一步。两者都以开源协议发布，向更广泛的开发者递出了邀请。

而 Auto Agent Learning 是这条路上下一块被等待着放下的棋子。

当模型跑在用户自己的设备上，当它能够在用户场景里持续学习和进化，Private AI 才会从一个概念变成可以被每个人真正拥有的东西。

Private AI 无疑是未来不可忽视的重要趋势之一，令人欣慰的是，我们已经在这条通往个人专属智能的道路上，看到了先行者的身影。