近日,美国密苏里大学哥伦比亚分校本科校友、美国迈阿密大学硕士校友、加拿大康科迪亚大学博士生郭琳强和所在团队,首次在移动 GUI Agent 框架中引入了有限状态机(FSM,Finite State Machine)作为任务执行的结构化建模手段来构建 Agent 的状态感知能力和结构化记忆。
研究人员让 Agent 在执行过程中实时动态地构建一个 FSM,将 UI 页面视为一个个状态,并记录改变状态的用户行为,从而让 Agent 理解自己身处任务流程的哪个阶段。FSM 的构建不仅让 Agent 拥有执行路径的全局视角,也使其具备前后状态验证,错误回溯的能力,从而在执行任务中更加稳定可靠。这种结构化的表示是对以往 Agent 的突破。更重要的是,这种 FSM 不只是短时记忆,研究人员通过设计 Mentor Agent,将每次任务构建的 FSM 持久化下来,形成可复用的知识。这样 Agent 在处理类似任务时,能够调取历史状态图,从经验中获得指引。
除此之外,研究人员发现以往 GUI Agent 只生成一个计划并直接执行,在真实环境中,一个复杂的任务往往有多种可执行路径,比如“在 Walmart 中查询卫生纸、橘子的商品打折价格并记录到 Note App 中”,这个任务的解决方法并不唯一,Agent 可能会出现先记录其中一个商品然后打开 Note 记录,然后再返回进行对另一个商品的查询以及记录,还有可能 Agent 一次性查询了两种商品的信息然后切换到 Note 中做记录。虽然这两种 plan 都可以解决问题,但很明显前者中存在更多的类似切换 App 的操作,而且真实人类操作更偏向于第二种解决方式。
因此在 MAPLE 中,研究人员让 Planner Agent 一次性生成多个候选 plan,每个 plan 都是由子任务和执行推理构成的序列。随后,研究人员引入了 LLM-as-judge 机制并提供了判断的依据,例如尽可能少地切换 App 的操作,研究人员借助语言模型对这些 plan 进行分析,从中选择最具可行性和稳健性的方案,并给出为推理过程来解释为什么选择它作为最终的 plan。这个机制使研究人员的 planning 过程更灵活而且具备自我评估的能力,从而达到更稳定高效的性能。
MAPLE 是对多模态大模型(MLLM,Multimodal Large Language Models)驱动的 mobile Agent 能力的一种增强与扩展。当前的多模态大模型已经能够理解和解析 UI,但它们在任务执行中仍缺乏结构性记忆和过程建模,导致在复杂任务中容易失误、缺乏上下文判断。MAPLE 通过引入 FSM 结构,为 MLLM Agent 提供了一种持续、可追踪的状态建模能力,让 Agent 不再只是“看当前屏幕做当前事”,而是具备了过程感知、前后状态验证、路径回退等更强的执行智能。因此可以说,MAPLE 是在底层框架上加强了 MLLM Agent 作为 mobile assistant 的整体能力,特别是在规划性、稳定性与可恢复性方面提供了系统性支持。
现如今 Agents 是非常火热的话题,实验室其他的同学也有用基于大模型的 Agents 去做一些相关课题。于是,研究人员便想探索用多模态模型作为 Agents 来做一些 GUI 相关的研究。研究人员对现有的 GUI Agents(主要是移动端)做了相关调查,它们虽然借助强大的多模态大模型具备了识别和操作界面的能力,但是在执行任务的过程中始终在“看一步走一步”,缺乏对应用的整体流程的理解并且缺乏对已访问过页面之间关系的理解,从而很难去判断当前的状态是否偏离了任务目标。正是因为这种局限性,使得现有 Agent 在面对跨应用,长路径的复杂任务和遇到错误操作时的恢复显得脆弱。因此研究人员意识到,是否可以为 Agent 引入一种可以持续建模导航,捕捉状态的变化并支持回溯状态的机制。
整个研究过程大致经历了四个阶段,每个阶段都伴随着对问题理解的深入和系统能力的不断扩展。
最初是分析现有 MLLM 驱动的 mobile Agent,研究人员着重去分析了它们的 error cases 并且注意到一个普遍问题:这些 Agent 虽然能理解单个 UI 屏幕并执行操作,但在复杂任务中经常失败。一旦出错,Agent 很难判断自己是当前操作错误还是在之前就有偏离,也缺乏回退或自我修正的机制,因为大部分 Agent 还是在采用先 retry 再 replan 来修复出现的错误。这个观察促使研究人员思考,是否可以为 Agent 引入一种“过程感知”的能力,来促使它更好地理解任务流程和错误修复。
接着进入的是建模阶段。研究人员选择了 FSM 作为核心抽象方式,因为移动应用本身就天然具备状态与转移的结构,而 FSM 正好可以将 UI screen 映射为状态,用户操作映射为转移。研究人员逐步构建出一个多 Agent 框架,分别负责规划、感知、建模、与执行等。其中的 State Agent 是关键组件,负责动态构建 FSM,同时标注每个状态的前置与后置条件。
第三阶段是实现与迭代。研究人员在真实 Android 设备上部署系统,选择跨应用、多步骤的 benchmark 进行实验。这个阶段挑战很大,因为需要系统在实际界面变化中维持稳定状态建模,还要能检测出偏离并发起恢复。研究人员反复调试 State Agent 和 Reflection Agent 的判断逻辑和 Agent 的提示词,比如如何判定“状态相似”、何时启动恢复、如何避免进入循环恢复等。
最后是规划机制与记忆系统的完善。研究人员引入了多路径规划机制和 LLM-as-judge,解决了此前“只生成一个 plan”的局限,同时引入 Mentor Agent,把任务中的 FSM 和交互经验存储起来,供未来任务复用。这一步让系统不仅能应对当前任务,也具备了跨任务的知识积累能力。
另据悉,在最初的实现阶段,研究人员对 FSM 的应用还比较初步,仅仅是记录了每个状态的自然语言描述。这样的建模方式在执行过程中显得非常单薄,Agent 虽然能够“记住去过哪些页面”,但并不能真正“理解”这些状态的含义,也无法对操作结果进行有效验证。后来,郭琳强与导师进行了深入的讨论。在他的启发下,郭琳强等人开始思考,是否可以为每个状态引入更丰富的语义信息。最终,他们决定为每个状态添加前置条件、后置条件,以及基于当前目标的下一状态预测。
这些要素被统一纳入到状态节点的结构中,使 FSM 不仅是一个执行轨迹的记录器,更是一个具备推理能力的结构化模型。这些增强信息也直接提升了 Reflection Agent 的判断力。它能够结合当前状态的后置条件与预测状态,对实际执行结果进行比对,从而判断动作是否达成了预期效果,是否需要触发恢复机制。同样是在那次讨论中,研究人员也进一步完善了“LLM-as-judge”的理念,不再依赖单一的规划路径,而是让 Agent 能生成多个候选方案,再通过大模型进行评估与筛选。可以说,MAPLE 的逐步完善,离不开研究人员团队每一位成员的投入,尤其是导师的引导与建议,在多个关键节点上都起到了非常重要的作用。这个过程本身就是一次非常宝贵的学习与合作经历。
目前,在 Agent 相关领域里,使用强化学习让小模型代替基于云端的大模型是比较火热的方向,用本地的小模型逐步替代对云端大模型的强依赖从而实现更轻量、可部署的移动智能体。“在其他方面,我可能会看一些 Agent 相关的安全性问题,包括如何限制其行为范围、检测异常决策等在如今都尤为重要。”郭琳强对 DeepTech 表示。
参考资料:
https://arxiv.org/pdf/2505.23596
运营/排版:何晨龙
热门跟贴