这个国产开源模型，让AI终于"看见"了屏幕

闪存猎手

2026-04-29 18:00 ·北京

一个工程师对着CRM系统发呆。客户数据明明就在眼前，AI助手却只能干瞪眼——它读不懂这个界面。

这是当下AI agent最尴尬的处境：脑子够快，眼睛却瞎了。

文本之外的硬边界

Claude Code能写代码，OpenClaw能调API。命令行、编辑器、云端服务——这些有标准化接口的地方，AI如鱼得水。

但企业软件的另一面是：填个报销单、调个设计参数、在ERP里跑个审批流。这些日常操作困住了所有agent。

问题不是智能不够。是agent根本看不见屏幕。

现有平台靠三条路子和计算机打交道：命令行（CLI）、浏览器开发者协议（CDP）、应用程序接口（API）。这三条路的共同死穴：只认"程序化接口"。

而现实很骨感——大量日常软件没有API：

• 遗留系统：银行、医院、政府的老旧软件，界面古老但业务核心

• 桌面应用：Photoshop、Excel、CAD工具，功能封闭在图形界面里

• 动态网页：现代前端框架渲染的页面，DOM结构随时变

• 第三方SaaS：中小厂商的产品，开放接口优先级极低

这是agent技术栈的结构缺口。有"大脑"做规划推理，缺"眼睛"看屏幕，更缺"双手"操作界面。

人类怎么干活，AI就该怎么学

人操作电脑靠视觉反馈闭环：看屏幕→理解界面→定位元素→执行动作→检查结果→继续下一步。这套流程不依赖任何底层API，纯靠"看见"和"动手"。

传统RPA（机器人流程自动化）试过模仿这条路。但它是硬编码的：固定坐标、元素路径、像素匹配。UI一变——现代软件每周都在变——脚本就崩，得人工重修。

更 robust 的方向是GUI-VLA（图形界面-视觉-语言-动作）模型：把视觉感知（看屏幕）、语言理解（读指令）、动作执行（点击、输入、导航）统一到一个框架里。不依赖固定的UI结构，agent通过视觉理解来认识界面，再相应行动。

核心 implication：只要软件有图形界面，agent理论上就能操作。

Mano-P的三张底牌

Mano-P是Mininglamp Technology（明略科技）开源的GUI-VLA agent模型，Apache 2.0协议，专为边缘设备设计。它的打法很彻底：纯视觉驱动，不解析DOM，不调系统API，只看截图、只执行动作。

技术设计有三张底牌：

渐进式三阶段训练。监督微调（SFT）打基础，离线强化学习练稳定性，在线强化学习磨实战能力。每一层在前一层上建，动作准确率和环境适应性逐步提升。

想-做-验推理循环。每次动作前先规划意图，执行后验证结果是否符合预期。如果走偏，系统自动纠偏。这直接把错误率压下来。

边缘优化架构。模型体积和计算需求针对本地设备压缩，不依赖云端大模型，响应延迟低，数据不出本地。

为什么"看见"这么难

GUI-VLA听起来直观，工程坑极多。

屏幕是像素矩阵，但操作意图是高层语义。"把第三行的数字改成2024"——人一眼懂，模型得先定位"第三行"、识别"数字"、理解"改"的含义、找到输入框、执行编辑。每一步都可能错。

更麻烦的是动态性。同样一个"保存"按钮，不同主题色、不同分辨率、不同窗口大小，像素完全不一样。硬匹配死路一条，得学抽象的视觉概念。

还有长任务拆解。复杂工作流十几步，中间一步错了，后面全崩。需要推理能力把大目标拆成可验证的小步骤，还得有记忆跟踪状态。

Mano-P的"想-做-验"循环就是针对这个：不盲目执行，每一步有检查点。这比端到端黑箱更可控，也比纯规则系统更灵活。

开源边缘设备的算盘

选Apache 2.0和边缘优化，明略科技有明确考量。

企业场景数据敏感。财务系统、客户资料、内部工具——上云意味着合规风险和审批噩梦。本地跑模型，数据不出内网，IT部门好签字。

响应速度是可用性门槛。云端大模型每次截图传上去、推理、传回来，延迟几秒。高频操作（比如批量处理表格）根本受不了。边缘部署压到毫秒级，体验才顺滑。

开源换生态。GUI-VLA是新兴赛道，各家数据格式、评测标准、最佳实践都没定型。先放出来占坑，吸引开发者贡献场景数据、打磨工具链，比闭门造车快。

明略科技本身做企业智能，服务过大量金融、零售客户。Mano-P不是实验室玩具，是从自己痛点里长出来的。

实际能解锁什么

GUI-VLA的真正价值不在"替代RPA"，在打开以前完全自动化的禁区。

跨应用工作流。销售从CRM导出客户，去Excel算提成，再回邮件系统发通知。三个系统三个界面，以前得三个API集成或人工串。现在一个agent看屏幕、切窗口、填数据，全流程走完。

遗留系统现代化。银行核心系统20年前的界面，重构成本上亿。agent不需要改一行代码，像人一样操作，把老系统包装成新服务。

长尾SaaS整合。企业用了几十个第三方工具，大部分没有开放接口。agent成为万能胶水， visually 打通数据孤岛。

复杂决策辅助。不是简单点击，是"分析这个仪表盘，发现异常指标，下钻到明细，生成报告"。视觉理解+推理+操作，闭环完成。

这些场景的共同点：界面复杂、步骤多变、没有API。恰恰是传统自动化够不着的地方。

还没解决的硬骨头

GUI-VLA不是银弹，当前边界很清楚。

可靠性。视觉推理会犯错，尤其是小众软件、自定义主题、异常状态（弹窗报错、加载失败）。"想-做-验"能降低错误，但无法归零。关键业务流程需要人工兜底或复核机制。

效率。人眼一扫懂的界面，模型要截图、编码、推理、解码动作。步骤多、延迟高，简单任务可能比人慢几倍。优化空间在模型压缩和专用硬件，但短期内是trade-off。

安全边界。agent能看能点，权限怎么控？误操作破坏性多大？需要细粒度的行为审计、沙箱隔离、人工确认节点。这些工程配套比模型本身更费功夫。

学习成本。每个新软件界面都要适应，虽然比硬编码RPA快，但也不是零样本。企业部署需要收集场景数据、微调模型，前期投入不小。

赛道格局与变量

GUI-VLA是2024-2025年agent竞赛的新前线。

Anthropic的Computer Use、OpenAI的Operator、Google的Project Mariner——大厂都在押注。路线略有不同：有的靠云端多模态大模型，有的走浏览器插件，有的做操作系统级集成。

Mano-P的差异化是"开源+边缘"。大厂方案强但封闭、贵、上云；Mano-P给需要自主可控、成本敏感、数据合规的企业多一个选项。

关键变量有几个：视觉模型的压缩效率（能不能小到笔记本流畅跑）、多步骤任务的规划稳定性（长流程不跑偏）、跨软件泛化能力（没见过的新界面能不能快速适应）。

另一个变量是生态。GUI操作需要大量标注数据：屏幕截图对应什么意图、该执行什么动作。开源社区能贡献多少真实场景数据，决定模型能长多快。

对从业者的实用判断

如果你在企业做自动化、RPA、AI落地，Mano-P这类GUI-VLA值得密切关注，但不必急于生产环境。

现阶段最务实的用法：POC验证。挑一个"有界面、无API、高频重复"的场景，用开源模型跑通端到端，量化准确率和耗时。数据说话，再决定投入。

技术储备方向：视觉-语言模型的微调经验、边缘部署的工程能力、agent行为的审计框架。这些是GUI-VLA落地的真实门槛，比模型本身稀缺。

风险对冲：不要押注单一技术路线。大厂闭源方案在快速迭代，开源社区在追赶，RPA厂商也在补视觉能力。保持架构灵活性，接口层抽象好，底层可替换。

长期看，GUI-VLA会吃掉传统RPA的大部分市场，但不是替代关系——是"视觉理解+规则兜底"的混合架构。关键业务流程需要确定性，纯神经网络给不了；长尾场景、快速变化、无API环境，纯规则又够不着。两者结合，各尽其用。

对明略科技来说，Mano-P是技术品牌资产，更是获客钩子。企业试用开源模型，遇到复杂场景需要支持、定制、集成——自然流向商业服务。这套打法在B2B软件领域验证过多次。

对行业来说，GUI-VLA的成熟意味着AI agent从"文本和API的囚徒"变成"计算机的全权代理"。这个转变的规模，不亚于当年从命令行到图形界面的跃迁。区别是，这次agent既是用户，也是操作者。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴