打开网易新闻 查看精彩图片

编辑|panda、+0

2026 年 3 月底,Ollama 发布了一则更新公告:其 Mac 版本的底层推理引擎,将从沿用多年的 llama.cpp 切换为苹果的 MLX 框架。

打开网易新闻 查看精彩图片

这条消息在开发者社区引发了激烈讨论,原因很简单:数字太好看了。在搭载 M5 芯片的 Mac 上,切换到 MLX 后,prefill 速度提升超过 57%,生成速度接近翻倍,部分场景下,生成第一个 token 的等待时间(TTFT)缩短至原先的四分之一。一位开发者在社区里写道,他的 Mac 的「解码速度提升了 93%」。

为什么性能提升如此之大?背后的原因其实并不神秘。Apple Silicon 采用的是统一内存架构,即 CPU、GPU 共享同一块物理内存,数据无需在不同存储池之间搬运。MLX 正是为这种架构专门设计的框架,因此天然获得了传统框架在 Mac 上得不到的底层优势。

从 M5 芯片开始,苹果还在每个 GPU 核心里嵌入了专门的矩阵乘法单元 Neural Accelerator,通过 Metal 4 的 TensorOps API 来调用,这是苹果首次在 GPU 层面提供可编程的、专属于 AI 推理的硬件加速。

打开网易新闻 查看精彩图片

Ollama 的这次选择,实际上是在向整个开发者生态发出一个明确信号:Apple Silicon + MLX 正在成为本地 AI 推理的主流路线,Mac 开始从「连接云端的终端」变成「独立运行 AI 的工作站」。基于此,用户甚至可以完全离线地使用 OpenClaw 和 Hermes Agent 等智能体。

然而,当这场迁徙热潮稍稍退去,一个更细节的问题浮出水面。MLX 目前支持的量化模式 W4A16 和 W8A16 只对模型「权重」进行了量化压缩,计算过程中的「激活值」仍然以 FP16 格式运行。这意味着,苹果专门为 INT8 运算设计的 Neural Accelerator 硬件,在现有 MLX 框架下并没有被完整调动。性能强劲又昂贵的硬件,用了一半,闲了一半。

就在这个时间节点,明略科技以两个开源项目递出了答案。一个叫Cider,一个叫Mano-P

Cider:为苹果补齐端侧 AI 生态

Cider 是明略科技自研并开源的端侧推理加速框架,构建于 MLX 之上,专为 macOS 与 Apple Silicon 设计。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

  • 仓库地址:https://github.com/Mininglamp-AI/cider

如果把 Apple Silicon 的推理过程想象成一条工厂流水线,MLX 目前的做法是:把原材料(模型权重)压缩成较小的规格运来,但到了加工环节(计算),还是用原来的精密工具在正常精度下操作。

Cider 的做法则是把加工环节本身也换成了适配压缩材料的专用工具:不仅让权重以更低精度存储,还让计算过程直接在 INT8 精度下执行,并借助 Metal 4 的 TensorOps API 调用 Apple GPU 里那块专门为此设计的硬件。

具体来说,Cider 提供了 MLX 原生框架缺失的两种量化推理模式。

其一是 W8A8:权重和激活值同时量化至 INT8,直接利用 Apple GPU 的 TensorOps 完成矩阵乘法,计算结束后再反量化回 FP16 输出。

其二是 W4A8:在 W8A8 的基础上进一步将权重压缩至 INT4,权重内存占用较 W8A8 减半。两种模式均以「融合算子」(fused kernel)实现,将量化、矩阵乘法、反量化三个步骤合并为一次 GPU 调度,避免了中间结果在显存里多次搬运的开销。

目前,W8A8/W4A8 激活量化功能在 Apple M5 Pro 上已稳定支持,M1-M4 则不支持。

再来看看实测数据。在单算子层面,以 10240 × 2560 的矩阵规模在 Apple M5 Pro 上进行测试,W8A8(Per-channel)模式相比原生 MLX W8A16 方案展现出显著的速度优势:在序列长度 M=1024 时速度提升 1.82 倍,M=4096 时提升 1.84 倍,而达到 M=8192 时则提升了 1.86 倍。

打开网易新闻 查看精彩图片

在真实 VLM 模型的端到端测试中,以 Qwen3-VL-2B 进行 chunked prefill 推理,W8A8 模式下整体 prefill 加速约 57%~61%。

打开网易新闻 查看精彩图片

这组数字之所以值得关注,还有一个维度:精度损失极小。以 Qwen3-8B 为例,W8A8(Per-channel)量化后的困惑度(PPL)为 9.756,与 FP16 原始精度(9.726)相比,差距仅为 0.03;同时其整体 Prefill 耗时从 FP16 的 179.9 秒大幅缩短至 123.5 秒,提速约 45%。也就是说,用极小的精度代价,换来了远超原精度方案的推理速度——这在量化领域并不常见。

打开网易新闻 查看精彩图片

Cider 并非某一个模型的专属工具,其服务对象涵盖了整个 MLX 生态。只要模型已经适配 MLX,开发者只需一行代码即可接入 Cider 加速:convert_model(model)。

打开网易新闻 查看精彩图片

Qwen、Llama、Mistral 等主流开源模型,以及 Qwen3-VL 等 VLM 模型,均可直接受益,接入过程无需修改模型结构。对于 VLM 场景,Cider 还内置了 OpenAI 兼容的推理服务接口,开发者可以直接在本地部署一个支持图文输入的推理服务,无需额外适配即可对接现有工具链;这对于需要在本地处理截图、文档或产品图的企业应用来说,是一个开箱即用的能力。但需要注意的是,针对 VLM 模型,为避免影响视觉编码器的精度,官方建议仅对 VLM 中的语言模型部分调用convert_model(language_model)。

值得一提的是,Cider 的量化加速仅作用于 prefill 阶段,decode 阶段会自动回落到原始权重进行推理,切换零开销,对输出质量无任何影响。

Cider 还包含一个实验性模块,方向更为大胆。在 Apple 芯片的推理过程中,GPU 和 CPU 是主要的计算单元,而神经网络引擎(ANE,Apple Neural Engine)几乎全程闲置。Cider 的实验性 ANE+GPU 异构并行模块,尝试在 prefill 阶段将线性层的矩阵运算按输出维度拆分,ANE 负责约 65% 的通道,GPU 负责剩余 35%,两者并行运行后合并结果。在 M4 芯片上的 Qwen3-VL-2B prefill 的同步测试中,这种方案相比纯 GPU 推理带来了约 3%~17% 的速度提升。

打开网易新闻 查看精彩图片

这个探索仍处于早期阶段,尚未实现 MLX 惯用的延迟求值(lazy evaluation),且目前仅在 M4 上经过验证。但它揭示了一个更长远的意图:Mac 上每一块算力单元都可以用起来。我们十分期待明略团队未来能基于这一方向,带来更多突破性的研究发现与技术成果。

Mano-P:让你的 Mac 长出「手」

与 Cider 同步开源的,还有明略科技的 GUI-VLA 智能体模型 Mano-P 1.0。其中,Mano 是西班牙语里「手」的意思,P 代表 Private。其项目页面写到:「我们相信,个体和组织都能够创造属于自己的私有 AI,人机协同的美好世界即将到来。」

打开网易新闻 查看精彩图片

  • 仓库地址:https://github.com/Mininglamp-AI/Mano-P

Mano-P 的核心能力是通过纯视觉理解,让 AI 直接看懂屏幕并操作图形界面(GUI),不依赖 CDP 协议或 HTML 解析,不局限于浏览器场景,桌面软件、Web 系统乃至更复杂的专业工具均可覆盖。

在全自动编程流水线中,它最直接的价值是替代人工完成 GUI 测试:Claude Code 写完代码,Mano-P 接手打开界面、点击验证、反馈结果,整个软件开发闭环不再需要人类介入。要知道,在常规的全自动编程流水线中,GUI 测试消耗的云端 token 占比超过 50%,Mano-P 端侧模型将这部分开销直接归零。

打开网易新闻 查看精彩图片

在 OSWorld 基准测试中,Mano-P 1.0-72B 以 58.2% 的成功率位列所有专用 GUI 智能体模型全球第一,领先第二名逾 13 个百分点;在 WebRetriever Protocol I 上,以 41.7 分超越 Gemini 2.5 Pro Computer Use(40.9)和 Claude 4.5 Computer Use(31.3)。

打开网易新闻 查看精彩图片

端侧方面,4B 量化模型在 Apple M4 Pro 上可实现 476 tokens/s prefill 和 76 tokens/s 解码、峰值内存仅 4.3GB,一台搭载 M4 芯片、32GB 内存的 Mac mini 即可本地运行,所有截图与任务数据不出设备。相比标准 PyTorch CPU 推理,其端侧推理提速 60 倍以上,且 8-bit 量化与全精度输出保持一致,坐标偏差严格控制在 1 像素以内。

而在 Apple M5 Pro + Cider 推理 SDK 组合下,Mano-P 1.0-4B 启用 Cider 的 W8A8 激活量化后,同一输入下 prefill 时间从 2.839s 降到 2.519s,prefill 约加速 12.7%。

打开网易新闻 查看精彩图片

Mano-P 与 Cider 配合落地的效果,也经过了一轮真实任务的严格测试。明略科技围绕其端到端自动化应用构建流水线 Mano-AFK 构建的五个 Web 应用(涵盖差旅分账、订单管理、家庭记账等场景),设计了一套包含 100 条任务的 CUA 基准,每条任务都区分「无 bug 版本」和「预注入 bug 版本」,考察模型能否正确判断应用是否可用。在搭载 MacBook Pro M5(16GB 内存)的设备上,Mano-P 在 W8A16 模式下准确率为 58.0%,而接入 Cider 的 W8A8 模式下准确率为 54.0%。

打开网易新闻 查看精彩图片

数据说明了一个值得正视的工程细节:在 16GB 内存的设备上,W8A8 模式需要同时保留原始权重与 INT8 权重,内存占用近似翻倍,在内存偏紧的情况下可能引发换页,抵消 prefill 阶段的加速收益。

官方建议在内存余量超出模型体积 4GB 以上的设备(如 32GB 或更高配置)上使用 W8A8,以充分发挥 Cider 的加速优势——这恰恰也是 Mano-P 推荐的标准硬件配置。这组数据的意义,不是说明 W8A8 在所有场景下都优于 W8A16,而是说明 Cider 与 Mano-P 的组合在真实任务中已经可以端到端跑通,性能的边界和适配条件也已经有了明确的工程结论。

打开网易新闻 查看精彩图片

文中视频链接:https://mp.weixin.qq.com/s/eLN0bUO-hGAxEwPFQ7zsjg

本视频展示 Mano-AFK 与 Cider 推理加速 SDK 的联合能力。Mano-AFK 从一句自然语言需求出发,自主完成需求澄清、架构设计、代码生成、本地部署,并在 E2E 测试环节调用由 Cider 加速的本地 Mano-P 视觉模型驱动真实浏览器完成 GUI 自动化测试;测试失败时自动定位缺陷、修复代码并重新验证,直至交付可运行的应用。Cider 提供 INT8 激活量化原语,让 Mano-P 在 Apple Silicon 上获得显著的 prefill 加速,整个「构建-测试-修复」闭环完全在本地执行,兼顾自主性、隐私与性能。

Mano-P 以 Apache 2.0 协议开源,支持商业使用与二次开发,完整技术栈(含训练方法、剪枝与量化方案)同样将后续开源,赋能广大企业或开发者基于自己的数据训练定制化 GUI Agent 模型。

更多详情可见我们之前的专题报道《全球第一,13 个 SOTA!我们找到了龙虾界掌管 GUI 的神》。

Cider + Mano-P = 快且实用的 Private AI

单独看 Cider,它是一个面向开发者的推理加速工具,受益的是所有跑在 Mac 上的 MLX 模型。单独看 Mano-P,它是一个 GUI 智能体,价值在于特定的自动化场景。

但把两者放在一起,指向的是同一件事:Private AI——让 AI 真正属于使用它的人,而不是服务提供商。

这个理念,在明略科技此前对 Mano-P 的阐述中已经有过完整表达,彼时称为 Personal AI。「AI for personal,不是说每个人可以用 AI,是每个人可以做 AI」。这句话的核心是 AI 的所有权问题。当所有人都调用同一个云端模型,AI 只是一种服务;而当模型跑在你自己的设备上、适应你的数据和场景,AI 才能成为真正意义上「属于你的工具」。

Private AI 是这一理念的延续和深化:Private 不只意味着私密,更意味着私有:数据私有、推理私有、能力私有。

  • Cider 解决的是「速度」问题:让端侧推理足够快,让本地运行不再是对云端的妥协,而是一个真实的工程选项。
  • Mano-P 解决的是「场景」问题:证明端侧 AI 可以在一个具体的、高价值的场景里真正可用。

两者叠加,才让「数据零上云」从安全口号变成可以被实际部署的工程方案:不调 API,不传截图,不花一分钱,成本可控、离线可用、数据完全自主。纯视觉感知与极速本地推理的结合,让数据隐私从一种承诺变成了物理隔离的必然。端侧不是缩水版 AI,而是下一阶段 AI 落地的重要形态!

这也是 Apple Silicon 生态里值得关注的一个位置。Apple 自身在 MLX 方向上持续加码;在刚结束的 ICLR 2026 大会上,Apple 在展位演示的核心内容之一,正是 MLX 在 MacBook Pro M5 上的本地 LLM 推理能力。

而 Cider 做的事,是在 Apple 官方生态已经建好的地基上,补齐了官方框架尚未覆盖的那一层:让 Apple 自家芯片里的专用硬件,被更充分地利用起来。用明略科技自己的说法:「我们拥抱了 Apple 的官方开源生态,并且比 Apple 原生框架把硬件潜能激发得更彻底。」

基于 Private AI 的未来……

在我们之前对明略集团副总裁,多模态首席科学家赵晨旭的采访中,他描述了一个即将到来的使用场景:假设你有一个公司内部的保密系统,需要让 AI 帮你操作。现有的方式,是把账号密码以明文写进 AI 的记忆文件里,安全隐患显而易见。

但如果模型跑在本地,就有了另一种可能:直接通过自然语言告诉它「把这个密码记进你的参数」,模型自动触发学习流程,把这段信息训练进自己的权重,而不是存成可以被读取的明文。你再问它密码,它说不知道;让它去登录,它却能做到。

这套能力,明略科技将其称为Auto Agent Learning。据了解,这也是他们即将公布的下一个技术方向。

Auto Agent Learning 要解决的核心问题是:如何让一个跑在本地的小模型,能够在用户自己的设备上,用自然语言持续更新参数,进而适应用户的私有场景、工作习惯和专属数据。

正如前文在探讨 Private AI 时所提及的,这不仅是隐私保护,更是对 AI 所有权的重新定义:你将告别传统的 AI 服务调用模式,转为培养一个完全专属的智能体;因为模型是基于你的个人数据与习惯进行本地演进的,它真正实现了从「属于你」向「更懂你」的跨越。它会跟着你的使用场景持续成长,最终蜕变为最契合你个人需求的专属形态。

Cider 和 Mano-P 是这条路上已经落地的两步棋。Cider 让本地推理足够快,让模型能在你的苹果设备上快速响应;Mano-P 让模型能看懂屏幕、操作界面,打通从「理解」到「行动」的最后一步。两者都以开源协议发布,向更广泛的开发者递出了邀请。

而 Auto Agent Learning 是这条路上下一块被等待着放下的棋子。

当模型跑在用户自己的设备上,当它能够在用户场景里持续学习和进化,Private AI 才会从一个概念变成可以被每个人真正拥有的东西。

Private AI 无疑是未来不可忽视的重要趋势之一,令人欣慰的是,我们已经在这条通往个人专属智能的道路上,看到了先行者的身影。