没有它不能操作的界面！OMNIPARSER赋能GPT-4V变身无所不能的UI操控高手！|gpt-4

近年来，大型视觉语言模型的成功表明，它们有望推动在用户界面上操作的智能代理系统的发展。然而，微软研究团队认为，像GPT-4V这样的多模态模型在跨操作系统和应用程序中作为通用代理的潜力仍被低估。这主要是因为缺乏一种强大的屏幕解析技术。这项技术应该能做到以下两点：1. 准确识别界面中可交互的图标，2. 理解截图中各元素的语义，并正确地将意图的操作与屏幕上的相应区域关联起来。（链接在文章底部）

为了解决这些问题，微软团队推出了OMNIPARSER。这是一种将用户界面截图解析为结构化元素的完整方法，能大幅增强GPT-4V生成与界面区域准确对应的操作的能力。OMNIPARSER包含两个经过微调的模型：一个是图标检测模型，用于识别可互动的区域，另一个是功能描述模型，用于分析这些区域的功能。OMNIPARSER能作为一个通用、易用的工具，能够解析PC和移动平台上的各种屏幕，无需依赖额外的HTML或Android视图层次等信息。

01 技术原理

复杂任务通常可以拆分为多个操作步骤，每一步都需要模型（如GPT-4V）具备以下两种能力：1）理解当前步骤中的UI界面内容，包括整体界面信息和带有编号ID的图标功能；2）预测在当前屏幕上要进行的下一步操作，以帮助完成整个任务。OMNIPARSER发现，与其在一次调用中完成这两个目标，不如在屏幕解析阶段先提取一些信息（如界面语义），这样可以减轻GPT-4V的负担，使其在解析界面时可以集中更多精力于操作预测。

相比直接让GPT-4V预测操作位置的坐标，OMNIPARSER采用了一种标记集(Set-of-Marks)的方法，将可交互图标的边界框覆盖在截图上，并让GPT-4V生成相应的边界框ID以执行操作。而不同于以往使用浏览器DOM树提供的按钮位置或AITW数据集中标记好的边界框，OMNIPARSER通过微调检测模型来自动提取可交互图标/按钮。

除了可交互区域检测，OMNIPARSER还加入了一个OCR模块以提取文字的边界框。随后合并OCR模块和图标检测模块生成的边界框，并去除高重叠度的区域（重叠度超过90%的边框将被移除）。

仅输入包含边界框和ID标记的UI截图，往往会对GPT-4V产生误导。OMNIPARSER认为原因在于GPT-4V难以同时完成识别图标语义和预测特定操作的复合任务，其他研究也有类似的发现。

为了解决这一问题，OMNIPARSER将每个图标的功能性语义融入到提示中。对于每个检测到的图标，OMNIPARSER使用微调模型生成其功能描述；对于文字框，OMNIPARSER使用OCR识别到的文本和对应标签。

02 数据集构建

OMNIPARSER构建了一个可交互图标检测数据集，包含6.7万张带有可交互图标边界框标注的独特截图，这些标注信息来自每个网页的DOM树。

OMNIPARSER 首先从ClueWeb数据集中抽取了10万个流行的公开网页链接样本，并从每个网页的DOM树中收集可交互区域的边界框。此外， OMNIPARSER 还收集了7000对图标和描述，用于微调图标描述模型。

https://arxiv.org/pdf/2408.00203
https://github.com/microsoft/OmniParser

欢迎交流～，带你学习AI，了解AI

没有它不能操作的界面！OMNIPARSER赋能GPT-4V变身无所不能的UI操控高手！

热搜

热门跟贴

热搜

热门跟贴

相关推荐

女子韩国旅游订房踩坑：每晚标价6万多未看清币种符号，回国后被扣6万元人民币

鹅厂造了个AI翻译公司：专攻网络小说，真人和GPT-4看了都说好

美国宾夕法尼亚州参院竞选将重新计票

在阿里，痛苦的人开始信教

再签60单！为何C919大飞机总订单已超1500架，总交付量却只有11架

张家界大庸古城试运营三年入驻店铺可查仅18家，日均购票人数不足20人，商家自称“苟延残喘”

上海试点：菜场现烧！97元能吃一桌菜，晚上大排长龙，商家却说“不太赚钱”

100万贱卖，曾坐拥2.4亿用户的“互联网全球500强”，被时代抛弃？

年轻人抛弃搜索引擎

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

曹德旺：其实大部分人都不适合发财，因为钱的反噬力非常大

乌外交部：没有也不打算拥有核武器

1美元兑换100.74卢布，俄罗斯卢布贬值至不足1美分，开始加速了

美国要求台积电停供大陆先进AI芯片，专家：或对中国AI算力经济造成影响

31省份平均工资公布！

广东两口岸试点启用“免出示证件”边检通道

西安90后女摊主被强占摊位？实为传媒公司主播，视频为策划摆拍

轻松一刻：青春没给我，30多岁还要几十万彩礼？

真探丨广州15岁中学生获评正高级职称？当地人社局工作人员：可能性几乎没有

父亲问单刀怎么没打进，张玉宁：距门将太近挑球不现实，就推远角