一个4B参数的模型,怎么在没网的情况下看懂屏幕、操作软件、还能自动写代码?

今天开源的这套组合——Mano-P模型、Cider加速引擎、Mano-AFK自动构建工具——给出了一个完整的答案。而且它不碰云端,所有截图和数据都留在你的Mac里。

打开网易新闻 查看精彩图片

为什么"本地"成了卖点

现在的GUI自动化工具,基本都在走同一条路:截图→传云端→等推理结果→返回操作指令。这套流程在企业环境里是个麻烦——财务系统的界面、内部后台的数据,每一帧截图都是潜在的安全风险。

Mano-P的名字里藏着设计意图。「Mano」在西班牙语里是"手",「P」代表Private。团队想表达的是:个人和组织应该能拥有自己的私有AI。

这个定位直接切中了云原生方案的软肋。不是性能问题,是控制权问题。当你的操作数据必须流经第三方服务器,合规审查、数据主权、审计追溯都会变成连锁反应。

4B参数的版本专门给Apple Silicon优化。不需要联网,不需要订阅API,装完就能跑。72B版本作为能力上限存在,但边缘场景的核心诉求是"能跑"和"敢跑"——前者看工程,后者看架构。

三阶段训练:从模仿到自我验证

Mano-P的技术报告里披露了一套渐进式训练流程:SFT(监督微调)→离线强化学习→在线强化学习。这不是堆数据的暴力美学,而是有明确阶段目标的迭代。

SFT阶段让模型学会"像人一样操作界面"。离线RL引入奖励模型,筛选出更可靠的动作序列。在线RL则把模型放到真实环境中,用实际执行反馈来修正策略。

关键设计是think-act-verify推理循环。模型不是直接输出点击坐标,而是先思考当前状态,再执行动作,最后验证结果是否符合预期。这个结构降低了单步错误的累积效应——GUI操作里一次误点击往往导致后续全部失效。

Benchmark数据给出了量化参照:OSWorld基准52.1分,WindowsAgentArena 23.8分,AndroidWorld 55.9分,WebArena 21.2分。这些数字对应的是跨平台通用能力,不是单一环境的过拟合。

硬件门槛很具体。M5 Pro配64GB内存,4B模型的prefill速度约22 tokens/秒,decode约24 tokens/秒。量化到W4A16后,prefill提升到33,decode到28。作为对比,72B版本在相同配置下prefill只有2.4 tokens/秒——这说明4B的定位是"实时可用",72B是"能力储备"。

Cider:填补MLX的量化盲区

苹果MLX框架提供了量化支持,但有个细节限制:它的QuantizedLinear是weight-only,权重量化到INT8或INT4,计算时却要反量化回FP16,再做FP16的矩阵乘法。这意味着内存省了,计算没省。

Cider做的是真正的W8A8——权重和激活都量化到INT8,计算也用INT8。这需要自定义Metal内核,实现融合化的quantize-matmul-dequant原语。

效果很直接:prefill阶段比MLX原生W4A16快1.4到2.2倍,decode速度持平。为什么prefill收益更大?因为prefill是计算密集型,矩阵乘法的位宽缩减带来线性加速;decode受内存带宽约束更多,量化收益被抵消。

Cider被设计成MLX的插件而非替代品。它暴露为MLX自定义原语,保持完整的惰性求值支持。任何MLX模型都能接入,不只是Mano-P。

团队还做了非侵入式兼容补丁,针对mlx_vlm 0.4.3版本修复了Qwen3-VL的多图推理问题。这种细节说明他们是在真实使用场景中打磨工具,不是Demo导向的开发。

有个硬件限制需要注意:INT8 TensorOps的C++扩展只在M5及以上芯片编译。M4设备上Cider会退化为纯Python包,is_available()返回False。强制编译可以用CIDER_FORCE_BUILD=1,但性能不做保证。

Mano-AFK:从一句话到可运行应用

如果Mano-P是"手",Mano-AFK就是"流水线"。它接收自然语言描述,自动走完需求澄清→架构设计→代码生成→部署→端到端GUI测试→Bug修复的完整链条。

测试环节用Mano-P作为本地视觉后端,驱动真实浏览器做自动化验证。测试失败时,系统会捕获错误截图,让模型分析失败原因,生成修复补丁,重新构建。

这个闭环设计解决了AI编程工具的常见痛点:代码能跑通,但界面交互对不对、视觉还原度如何,需要人工逐一确认。把GUI Agent嵌入CI/CD流程,相当于给AI配了双能"看"的眼睛。

场景很具体。产品经理描述一个后台管理界面,AFK生成React代码,自动部署到预览环境,然后用Mano-P打开浏览器验证登录流程、表格筛选、数据导出是否正常。发现问题就截图回传,迭代修复。

这里的关键是"端到端"的定义。不是生成代码就算完,是验证用户真实使用路径是否通畅。GUI Agent的价值在于它能模拟人类用户的视角,而不是单元测试的断言逻辑。

开源策略与生态位

三件套全部开源:Mano-P模型权重、Cider SDK、AFK构建工具。代码托管在GitHub,许可证允许商业使用。

这个选择有明确的生态意图。GUI自动化是个长尾场景——每个企业的内部系统、每个行业的专用软件、每个国家的本地化应用,都需要定制化适配。闭源方案只能覆盖头部通用场景,开源才能撬动垂直领域的自我扩展。

Apple Silicon的绑定既是限制也是护城河。M系列的统一内存架构让大模型边缘部署成为可能,但这也意味着和NVIDIA生态的切割。对于已经采购Mac设备的企业,这是沉没成本的再利用;对于纯云端玩家,这是需要重新评估的硬件门槛。

团队来自Mininglamp-AI(明略科技),一家做企业级数据智能的公司。这个背景解释了为什么隐私优先、本地部署是核心叙事——他们服务的客户群体对数据合规有刚性要求。

为什么这件事值得技术人关注

GUI Agent的竞争正在分层。云端大模型追求通用能力上限,边缘方案争夺场景落地权。Mano-P的4B/72B双版本策略,本质是"够用就好"和"能力储备"的并行。

更深层的变化是AI工程范式的转移。当模型能直接操作软件界面,API不再是唯一的集成接口。大量遗留系统、闭源软件、没有开放接口的企业应用,突然获得了被自动化的可能性。

Cider的技术细节也值得玩味。它不是在重写MLX,而是在填补其量化实现的缝隙。这种"补丁式创新"是开源生态的常态——大框架定义基础能力,社区插件解决特定场景的性能瓶颈。

如果你在用Apple Silicon设备,现在就可以下载测试。4B模型的本地运行门槛,比想象中更低。而AFK的完整流程,或许能改变你对"AI编程"的定义——不是代码生成,是从需求到验证的闭环。