一个工程师对着CRM系统发呆。客户数据明明就在眼前,AI助手却只能干瞪眼——它读不懂这个界面。
这是当下AI agent最尴尬的处境:脑子够快,眼睛却瞎了。
文本之外的硬边界
Claude Code能写代码,OpenClaw能调API。命令行、编辑器、云端服务——这些有标准化接口的地方,AI如鱼得水。
但企业软件的另一面是:填个报销单、调个设计参数、在ERP里跑个审批流。这些日常操作困住了所有agent。
问题不是智能不够。是agent根本看不见屏幕。
现有平台靠三条路子和计算机打交道:命令行(CLI)、浏览器开发者协议(CDP)、应用程序接口(API)。这三条路的共同死穴:只认"程序化接口"。
而现实很骨感——大量日常软件没有API:
• 遗留系统:银行、医院、政府的老旧软件,界面古老但业务核心
• 桌面应用:Photoshop、Excel、CAD工具,功能封闭在图形界面里
• 动态网页:现代前端框架渲染的页面,DOM结构随时变
• 第三方SaaS:中小厂商的产品,开放接口优先级极低
这是agent技术栈的结构缺口。有"大脑"做规划推理,缺"眼睛"看屏幕,更缺"双手"操作界面。
人类怎么干活,AI就该怎么学
人操作电脑靠视觉反馈闭环:看屏幕→理解界面→定位元素→执行动作→检查结果→继续下一步。这套流程不依赖任何底层API,纯靠"看见"和"动手"。
传统RPA(机器人流程自动化)试过模仿这条路。但它是硬编码的:固定坐标、元素路径、像素匹配。UI一变——现代软件每周都在变——脚本就崩,得人工重修。
更 robust 的方向是GUI-VLA(图形界面-视觉-语言-动作)模型:把视觉感知(看屏幕)、语言理解(读指令)、动作执行(点击、输入、导航)统一到一个框架里。不依赖固定的UI结构,agent通过视觉理解来认识界面,再相应行动。
核心 implication:只要软件有图形界面,agent理论上就能操作。
Mano-P的三张底牌
Mano-P是Mininglamp Technology(明略科技)开源的GUI-VLA agent模型,Apache 2.0协议,专为边缘设备设计。它的打法很彻底:纯视觉驱动,不解析DOM,不调系统API,只看截图、只执行动作。
技术设计有三张底牌:
渐进式三阶段训练。监督微调(SFT)打基础,离线强化学习练稳定性,在线强化学习磨实战能力。每一层在前一层上建,动作准确率和环境适应性逐步提升。
想-做-验推理循环。每次动作前先规划意图,执行后验证结果是否符合预期。如果走偏,系统自动纠偏。这直接把错误率压下来。
边缘优化架构。模型体积和计算需求针对本地设备压缩,不依赖云端大模型,响应延迟低,数据不出本地。
为什么"看见"这么难
GUI-VLA听起来直观,工程坑极多。
屏幕是像素矩阵,但操作意图是高层语义。"把第三行的数字改成2024"——人一眼懂,模型得先定位"第三行"、识别"数字"、理解"改"的含义、找到输入框、执行编辑。每一步都可能错。
更麻烦的是动态性。同样一个"保存"按钮,不同主题色、不同分辨率、不同窗口大小,像素完全不一样。硬匹配死路一条,得学抽象的视觉概念。
还有长任务拆解。复杂工作流十几步,中间一步错了,后面全崩。需要推理能力把大目标拆成可验证的小步骤,还得有记忆跟踪状态。
Mano-P的"想-做-验"循环就是针对这个:不盲目执行,每一步有检查点。这比端到端黑箱更可控,也比纯规则系统更灵活。
开源边缘设备的算盘
选Apache 2.0和边缘优化,明略科技有明确考量。
企业场景数据敏感。财务系统、客户资料、内部工具——上云意味着合规风险和审批噩梦。本地跑模型,数据不出内网,IT部门好签字。
响应速度是可用性门槛。云端大模型每次截图传上去、推理、传回来,延迟几秒。高频操作(比如批量处理表格)根本受不了。边缘部署压到毫秒级,体验才顺滑。
开源换生态。GUI-VLA是新兴赛道,各家数据格式、评测标准、最佳实践都没定型。先放出来占坑,吸引开发者贡献场景数据、打磨工具链,比闭门造车快。
明略科技本身做企业智能,服务过大量金融、零售客户。Mano-P不是实验室玩具,是从自己痛点里长出来的。
实际能解锁什么
GUI-VLA的真正价值不在"替代RPA",在打开以前完全自动化的禁区。
跨应用工作流。销售从CRM导出客户,去Excel算提成,再回邮件系统发通知。三个系统三个界面,以前得三个API集成或人工串。现在一个agent看屏幕、切窗口、填数据,全流程走完。
遗留系统现代化。银行核心系统20年前的界面,重构成本上亿。agent不需要改一行代码,像人一样操作,把老系统包装成新服务。
长尾SaaS整合。企业用了几十个第三方工具,大部分没有开放接口。agent成为万能胶水, visually 打通数据孤岛。
复杂决策辅助。不是简单点击,是"分析这个仪表盘,发现异常指标,下钻到明细,生成报告"。视觉理解+推理+操作,闭环完成。
这些场景的共同点:界面复杂、步骤多变、没有API。恰恰是传统自动化够不着的地方。
还没解决的硬骨头
GUI-VLA不是银弹,当前边界很清楚。
可靠性。视觉推理会犯错,尤其是小众软件、自定义主题、异常状态(弹窗报错、加载失败)。"想-做-验"能降低错误,但无法归零。关键业务流程需要人工兜底或复核机制。
效率。人眼一扫懂的界面,模型要截图、编码、推理、解码动作。步骤多、延迟高,简单任务可能比人慢几倍。优化空间在模型压缩和专用硬件,但短期内是trade-off。
安全边界。agent能看能点,权限怎么控?误操作破坏性多大?需要细粒度的行为审计、沙箱隔离、人工确认节点。这些工程配套比模型本身更费功夫。
学习成本。每个新软件界面都要适应,虽然比硬编码RPA快,但也不是零样本。企业部署需要收集场景数据、微调模型,前期投入不小。
赛道格局与变量
GUI-VLA是2024-2025年agent竞赛的新前线。
Anthropic的Computer Use、OpenAI的Operator、Google的Project Mariner——大厂都在押注。路线略有不同:有的靠云端多模态大模型,有的走浏览器插件,有的做操作系统级集成。
Mano-P的差异化是"开源+边缘"。大厂方案强但封闭、贵、上云;Mano-P给需要自主可控、成本敏感、数据合规的企业多一个选项。
关键变量有几个:视觉模型的压缩效率(能不能小到笔记本流畅跑)、多步骤任务的规划稳定性(长流程不跑偏)、跨软件泛化能力(没见过的新界面能不能快速适应)。
另一个变量是生态。GUI操作需要大量标注数据:屏幕截图对应什么意图、该执行什么动作。开源社区能贡献多少真实场景数据,决定模型能长多快。
对从业者的实用判断
如果你在企业做自动化、RPA、AI落地,Mano-P这类GUI-VLA值得密切关注,但不必急于生产环境。
现阶段最务实的用法:POC验证。挑一个"有界面、无API、高频重复"的场景,用开源模型跑通端到端,量化准确率和耗时。数据说话,再决定投入。
技术储备方向:视觉-语言模型的微调经验、边缘部署的工程能力、agent行为的审计框架。这些是GUI-VLA落地的真实门槛,比模型本身稀缺。
风险对冲:不要押注单一技术路线。大厂闭源方案在快速迭代,开源社区在追赶,RPA厂商也在补视觉能力。保持架构灵活性,接口层抽象好,底层可替换。
长期看,GUI-VLA会吃掉传统RPA的大部分市场,但不是替代关系——是"视觉理解+规则兜底"的混合架构。关键业务流程需要确定性,纯神经网络给不了;长尾场景、快速变化、无API环境,纯规则又够不着。两者结合,各尽其用。
对明略科技来说,Mano-P是技术品牌资产,更是获客钩子。企业试用开源模型,遇到复杂场景需要支持、定制、集成——自然流向商业服务。这套打法在B2B软件领域验证过多次。
对行业来说,GUI-VLA的成熟意味着AI agent从"文本和API的囚徒"变成"计算机的全权代理"。这个转变的规模,不亚于当年从命令行到图形界面的跃迁。区别是,这次agent既是用户,也是操作者。
热门跟贴