近年来,大型视觉语言模型的成功表明,它们有望推动在用户界面上操作的智能代理系统的发展。然而,微软研究团队认为,像GPT-4V这样的多模态模型在跨操作系统和应用程序中作为通用代理的潜力仍被低估。这主要是因为缺乏一种强大的屏幕解析技术。这项技术应该能做到以下两点:1. 准确识别界面中可交互的图标,2. 理解截图中各元素的语义,并正确地将意图的操作与屏幕上的相应区域关联起来。(链接在文章底部)

为了解决这些问题,微软团队推出了OMNIPARSER。这是一种将用户界面截图解析为结构化元素的完整方法,能大幅增强GPT-4V生成与界面区域准确对应的操作的能力。OMNIPARSER包含两个经过微调的模型:一个是图标检测模型,用于识别可互动的区域,另一个是功能描述模型,用于分析这些区域的功能。OMNIPARSER能作为一个通用、易用的工具,能够解析PC和移动平台上的各种屏幕,无需依赖额外的HTML或Android视图层次等信息。

01 技术原理

复杂任务通常可以拆分为多个操作步骤,每一步都需要模型(如GPT-4V)具备以下两种能力:1)理解当前步骤中的UI界面内容,包括整体界面信息和带有编号ID的图标功能;2)预测在当前屏幕上要进行的下一步操作,以帮助完成整个任务。OMNIPARSER发现,与其在一次调用中完成这两个目标,不如在屏幕解析阶段先提取一些信息(如界面语义),这样可以减轻GPT-4V的负担,使其在解析界面时可以集中更多精力于操作预测。

相比直接让GPT-4V预测操作位置的坐标,OMNIPARSER采用了一种标记集(Set-of-Marks)的方法,将可交互图标的边界框覆盖在截图上,并让GPT-4V生成相应的边界框ID以执行操作。而不同于以往使用浏览器DOM树提供的按钮位置或AITW数据集中标记好的边界框,OMNIPARSER通过微调检测模型来自动提取可交互图标/按钮。

除了可交互区域检测,OMNIPARSER还加入了一个OCR模块以提取文字的边界框。随后合并OCR模块和图标检测模块生成的边界框,并去除高重叠度的区域(重叠度超过90%的边框将被移除)。

仅输入包含边界框和ID标记的UI截图,往往会对GPT-4V产生误导。OMNIPARSER认为原因在于GPT-4V难以同时完成识别图标语义和预测特定操作的复合任务,其他研究也有类似的发现。

为了解决这一问题,OMNIPARSER将每个图标的功能性语义融入到提示中。对于每个检测到的图标,OMNIPARSER使用微调模型生成其功能描述;对于文字框,OMNIPARSER使用OCR识别到的文本和对应标签。

02 数据集构建

OMNIPARSER构建了一个可交互图标检测数据集,包含6.7万张带有可交互图标边界框标注的独特截图,这些标注信息来自每个网页的DOM树。

OMNIPARSER 首先从ClueWeb数据集中抽取了10万个流行的公开网页链接样本,并从每个网页的DOM树中收集可交互区域的边界框。 此外, OMNIPARSER 还收集了7000对图标和描述,用于微调图标描述模型。

https://arxiv.org/pdf/2408.00203
https://github.com/microsoft/OmniParser

欢迎交流~,带你学习AI,了解AI