近日,明略科技正式开源自研GUI感知智能体模型Mano-P1.0。Mano-P具备GUI感知、理解、规划、操作与验证能力,可通过纯视觉方式直接理解并操控桌面软件、网页界面及更复杂的图形化工作流,并支持在AppleM4芯片设备上本地运行。
Mano-P让AI打破了“只看不做”的局限,能够直接在真实的图形界面中跨平台执行复杂任务。该项目以Apache2.0协议开源,完整代码公开可审计,支持商业使用与二次开发。
通过提供纯视觉理解与本地执行能力,Mano-P赋能个人开发者与企业组织能够以低成本构建专属的个性化AI,在保障数据主权的前提下,正式迈入“私有化”的个人AI时代。
纯视觉驱动
打通复杂业务流的“最后一公里”
在现有技术架构下,自动化操作往往受限于底层API接口调用、CDP协议或网页HTML解析,一旦面对非标准应用或跨系统协作时便显得力不从心。Mano-P以纯视觉理解为核心技术范式,不依赖外部接口与协议,能够直接理解并操控桌面软件、3D应用及复杂的专业工具,从根本上打破了传统基于浏览器的生态边界。
同时,Mano-P可为现有Agent生态提供关键的执行能力底座。目前,Mano-P可通过skill形式无缝接入OpenClaw等AIAgent。强强联合下,Agent可以无缝穿梭于多窗口系统和跨应用的工作流中,顺滑地执行点击、文本输入、窗口切换及视觉验证等闭环动作。
这一突破解决了长期困扰Agent工作流的人工干预瓶颈,使模型不仅能胜任全自动应用的构建测试,更能向复杂的商业场景延伸,实现复杂任务的全程自主执行。
13个榜单屠榜式SOTA
刷新GUI专用模型性能天花板
为确保前沿技术在端侧设备的普惠可用,Mano-P采用了双版本交付架构:由72B完整模型探索并证明技术上限,同时提供4B量化模型(w4a16)以满足极致的端侧部署需求。
Mano-P1.0以72B参数量的完整模型版本,在全球多模态领域的13个权威基准测试榜单中,实现了针对小尺寸模型的屠榜式SOTA领先。其能力矩阵全面覆盖了GUIGrounding、CUA(计算机使用代理)、多模态感知认知、视频理解以及长上下文学习等关键维度,确立了端侧GUIAgent的性能标杆。
图片来源:明略科技
在业界权威的OSWorld专有模型基准测试中,Mano-P72B模型以58.2%的任务成功率位列全球第一,领先第二名opencua-72b(45.0%)多达13.2个百分点。此外,在ScreenSpot-V2、MMBench、UI-Vision等评测体系中,Mano-P同样以绝对优势拔得头筹。
卓越的性能离不开底层的技术创新。Mano-P引入了SFT(监督微调)、离线强化学习与在线强化学习的三阶段渐进式训练架构,并配合专有的GSPruning视觉Token剪枝技术,实现了端侧推理效率的飞跃。
在配备AppleM4Pro芯片的设备上,4B量化模型可实现高达476tokens/s的预填充速度与76tokens/s的解码速度,峰值内存占用仅为4.3GB,完美适配主流边缘设备的算力与存储限制。
可端侧本地部署
实现物理隔离级数据保护
随着AI深入核心业务流,数据隐私与合规性成为企业决策的核心考量。Mano-P可进行本地端侧部署,数据零上云,通过“纯视觉理解+本地执行”的架构,能够实现数据处理与外部网络的物理隔离。
在本地模式下,模型可直接在Macmini/MacBook(M4芯片及以上,32GB+内存)上运行,或使用Mano-P算力棒连接(通过USB4.0)。系统的屏幕截图、业务流转数据及任务指令均在本地闭环,从源头上杜绝了面向云端服务器的传输风险。
同时,Mano-P具备强大的离线长任务自主规划能力。在无网环境下,Mano-P同样可以自主推进复杂业务流程,并完成过程中的决策与纠错。这一特性不仅重塑了人机交互的信任边界,更使得端侧AI能够真正进入高安全性、高隐私要求的企业级生产环境。
践行全面开源战略
加速PersonalizedAI生态繁荣
技术的价值在于广泛的应用与生态的共建。Mano-P遵循Apache2.0协议正式开源,完整客户端代码全面公开并支持严格审计,允许商业化应用与二次开发。
为降低企业与个人用户的接入成本,Mano-P设计了三种开箱即用的使用形态,精准覆盖不同技术栈的用户群体。无需繁琐配置复杂的API密钥,用户均能以极低门槛构建专属的高性能GUI智能体。
按照既定开源规划,明略科技本次率先开源Mano-CUA核心技能,用户可将其便捷配置到OpenClaw或ClaudeCode中,以构建更智能的CUA任务工作流程,并克服人工干预带来的瓶颈。
图片来源:明略科技
Mano-CUA本地模型和SDK组件预计将于月内正式开源,以满足具有高安全性开发者的需求。届时用户可直接调用本地化部署的GUI-VLA模型来构建自定义技能与工具,所有CUA操作都将在本地Mac设备上执行,而不会上传到外部服务器。
未来,明略科技还将全面开源Mano-P模型底层的训练方法、Token剪枝技术与混合精度量化方案,助力开发者打造符合自身业务需求的专属本地GUI-VLA模型。
面向未来,从技术破局到生态共建,Mano-P将GUI感知、视觉操作、本地运行与开源生态紧密结合,不仅为端侧智能体夯实了坚实的技术底座,更为“PersonalizedAI”铺就了一条清晰的现实路径。无论是独立开发者,还是对安全要求严苛的企业组织,都能以更低的门槛、更高的可控性,打造个性化AI。明略科技正以开放之姿,让“人人可以创造专属AI”的愿景逐渐照进现实。
以上内容与数据,与有连云立场无关,不构成投资建议。据此操作,风险自担。
热门跟贴