教龙虾玩手机！打通GUI智能体训练-评测-部署全流程，一站解决|gui|大模型|智能体训练|算法|评测|龙虾

ClawGUI团队投稿
量子位 | 公众号 QbitAI

没有人工干预，没有预设脚本，AI自己看屏幕、判断局面、规划消除路径、点击执行。

看着它一步步把方块消掉，莫名有种解压感。

这不是游戏外挂，而是一个通用GUI智能体在「认真工作」：它用的是和操作手机App、填写表单、浏览网页完全相同的视觉理解与操控能力。能玩消消乐，只是因为它真的学会了「看懂屏幕并操作」这件事。

那么问题来了：一个能自己玩消消乐的AI，离替你完成日常手机操作还有多远？不是那种「帮我设个闹钟」的语音助手，而是真正像人一样，看屏幕、理解界面、滑动点击、逐步完成复杂任务的智能体。

当前GUI智能体研究普遍面临一个结构性挑战：训练、评测、部署三个环节彼此割裂，难以形成闭环。模型在仿真环境里训练完成后，往往缺乏配套的工程路径迁移到真实设备；评测体系标准不一，不同框架下的数字难以横向比较；而部署到真实设备，又需要独立搭建一套工程基础设施。三个环节各自为战，整体推进的成本极高。

今天，来自ZJU-REAL的团队带来了ClawGUI，一个覆盖GUI智能体在线RL训练、标准化评测、真机部署完整生命周期的开源框架。不是三个独立工具的简单拼接，而是一条打通的流水线：用ClawGUI-RL训练，用ClawGUI-Eval评测，用OpenClaw-GUI部署，端到端验证。

基于这套流水线，一个仅2B参数的小模型ClawGUI-2B，在MobileWorld基准上取得17.1 SR，大幅超越基线的11.1，达到了接近8B模型的水平。

△ClawGUI系统架构总览

ClawGUI-RL：让GUI模型在环境中稳步提升

GUI Agent的RL训练需要与真实设备进行持续交互，截屏、解析、操作、获得反馈，形成完整的episode。这意味着训练基础设施不仅需要模型训练框架，还需要大规模环境仿真和设备管理能力。ClawGUI-RL是目前开源社区中为数不多的、经过端到端验证的GUI Agent Online RL解决方案。

具体来说，ClawGUI-RL将整个训练基础设施拆解为三层：环境管理、奖励设计、策略优化。

环境层面，所有设备后端（Docker虚拟机和物理手机）被统一抽象为同一套接口，训练代码无需区分底层是模拟器还是真机。每个环境遵循「重置→执行→评估→回收」的标准生命周期，配合Spare Server轮转和周期性重启，保证长时间训练的稳定性。

奖励层面，ClawGUI-RL采用二元结果奖励+PRM逐步奖励的双层设计。结果奖励在episode结束时给出成功/失败的0/1信号，PRM则在每一步操作后根据前后截图和历史动作判断当前操作是否有效推进了任务，两者相加构成最终奖励。这种稠密的逐步反馈极大缓解了GUI长序列决策中奖励稀疏的问题，让优化器能够区分哪些中间步骤是有价值的、哪些是无效绕路。

策略优化层面，ClawGUI-RL支持GRPO、GiGPO等主流强化学习算法，并提供统一的训练接口，方便研究者根据任务特性灵活切换和对比不同优化策略。

△ClawGUI-RL架构图

虚拟环境与真机训练

基于Docker的Android虚拟环境，ClawGUI-RL支持大量虚拟Android环境同时并行运行。内置的Spare Server轮转机制保证了训练的鲁棒性，当某个容器截图失败或设备不健康时，系统自动切换至备用服务器，训练不中断。团队提供了经过验证的端到端真机RL训练流程，物理手机和云手机均可接入。真机训练的交互协议与虚拟环境完全一致，为后续大规模云手机训练铺平了道路。

PRM逐步奖励：不止看结果，每一步都给分

标准GRPO为整个Episode分配一个单一的优势分数，成功了就是1，失败了就是0，中间步骤好不好完全不管。这就像考试只看总分，不知道哪道题做对了哪道做错了。ClawGUI-RL通过引入过程奖励模型（PRM）改变了这一点，对每一步操作进行评估，提供更密集的梯度信号，实现更精细的策略优化。

实验结果

以MAI-UI-2B为基座，ClawGUI-2B在MobileWorld基准上的表现：

几个关键数字：ClawGUI-2B达到17.1 SR，大幅超越MAI-UI-2B基线（11.1），提升幅度达6%。一个2B小模型，达到了接近8B模型的水平。

ClawGUI-Eval：95.8%复现率，让评测结果可信

GUI模型评测领域长期面临复现一致性的挑战：不同框架、不同实现细节下，同一模型的评测数字往往存在明显差异。差个prompt格式、搞混坐标系、调错分辨率，结果就可能偏差数个百分点。

ClawGUI-Eval通过标准化的Infer→Judge→Metric三阶段流水线系统性地解决了这个问题。

△ClawGUI-Eval评测框架

覆盖6大Benchmark（ScreenSpot-Pro、ScreenSpot-V2、UIVision、MMBench-GUI、OSWorld-G、AndroidControl），支持11+模型（Qwen3-VL、Qwen2.5-VL、UI-TARS、MAI-UI、GUI-G2、UI-Venus、Gemini、Seed 1.8等）。48个有官方基准的格子中成功复现46个，总体复现率95.8%。前沿模型Gemini 3.0 Pro和Seed 1.8在ScreenSpot-Pro上实现100%复现，并首次评测了Gemini 3.1 Pro（85.01）。

踩坑踩出来的复现Tips

比数字更有价值的，是团队总结的关键复现经验，每一条都是用准确率换来的教训：

1. 坐标系统不匹配=准确率归零。Qwen2.5-VL输出绝对像素坐标，Qwen3-VL输出[0,1000]归一化，StepGUI用[0,999]，搞混一个就是灾难。

2. 图文输入顺序（tv vs. vt）可导致数个百分点差异。大部分模型需要图片在前（vt），MAI-UI需要文本在前（tv），用错直接崩盘。

3. 哪怕一句”You are a helpful assistant.”也能带来约1%的提升。System prompt必须严格对齐官方。

4. Prompt格式必须逐字对齐。措辞微小差异就可能影响结果。

5. 温度建议设为0.0。非零温度影响坐标精度。

所有推理结果已全部开源，欢迎下载验证。

OpenClaw-GUI：一句话控制手机

GUI智能体真正的价值，在于能够在用户手边的真实设备上运行、帮人完成实际任务。OpenClaw-GUI正是为此而生，把GUI智能体带到真机上落地。

基于nanobot框架构建，OpenClaw-GUI实现了通过自然语言控制真实手机。接入飞书、QQ、Telegram、Discord、Slack、钉钉等12+聊天平台，用户在聊天窗口发一句指令，Agent就能截屏理解界面、规划操作路径、执行点击和输入。

更关键的是，OpenClaw-GUI把评测也集成进来了。说一句「帮我测一下qwen3vl在screenspot-pro上的指标」，Agent会自动完成环境检测→多GPU推理→判分→指标计算→结果对比。这本身就是CLI+GUI协作的绝佳例证，计算密集型工作由CLI高效完成，人机交互和结果呈现依赖GUI。

核心能力：跨平台支持Android（ADB）、鸿蒙（HDC）、iOS（XCTest）；多模型接入AutoGLM、MAI-UI、GUI-Owl、Qwen-VL、UI-TARS；个性化记忆，自动学习用户偏好，跨任务持续复用；Episode记录，每次执行以结构化Episode保存，支持回放与数据集构建；Web UI基于Gradio，支持设备管理、任务执行与记忆查看。

展望：GUI的故事远未结束

2026年，CLI Agent无疑是最火的赛道。Claude Code、Gemini CLI、CodeBuddy……一个自然的问题浮现：GUI智能体还有必要吗？

研究团队倾向于认为：GUI的故事远没有结束，CLI+GUI的融合或许是通往通用Agent的一条重要路径。

人类短期内离不开GUI。从文字到图片到视频，越容易被感知的媒介越具备传播优势。外卖、打车、社交、购物，移动互联网绝大多数的交互发生在图形界面上。至少在可见的未来，GUI仍将是数字世界的主要入口。

不是所有App都有API。微信、银行、大量企业内部系统只有图形界面。CLI面向Agent执行，高效干活；GUI面向人类理解，感知和交互。两者更像是互补关系而非替代关系。

GUI的「可见性」提供了一种独特的信任机制。假如Agent在执行任务时涉及支付操作，CLI以用户看不见的方式直接完成了付款，造成的损失谁来承担？GUI操作到关键步骤时，用户可以看到屏幕上正在发生什么、随时介入。这种可控性可能是纯CLI方案较难提供的。

Online RL的工程挑战远未被解决。GUI Agent的RL训练需要与真实App交互，登录验证、反爬机制、动态UI变化，大规模RL Scaling的稳定性仍是行业难题。ClawGUI-RL的Spare Server轮转和周期性重启机制是一个初步的探索，距离大规模生产级训练还有很长的路要走。

路线图

ClawGUI的规划不止于此：OpenClaw-GUI支持自然语言手机操控与评测；ClawGUI-RL可扩展的Mobile Online RL训练基础设施，支持PRM逐步奖励；ClawGUI-Eval标准化评测套件，6个Benchmark，95%+复现率；ClawGUI-2B达到17.1 SR（基线11.1）；后续将推进真机部署OpenClaw-GUI，直接部署在手机上避免云端隐私泄露；Desktop / Web Online RL，将在线RL扩展至桌面和网页环境；以及基于OPD算法的实时强化学习。