OmniParser：能描述出页面中的元素并识别出可操作区域

0 70

OmniParser简介

OmniParser是由微软研究院开发的一种创新的视觉语言模型，旨在提升基于用户界面的代理系统在不同操作系统和应用程序中的操作能力。该工具通过解析用户界面截图，将其转换成结构化的元素，从而显著增强了如GPT-4V等大型多模态模型在各种用户任务中生成准确操作的能力。OmniParser通过微调专用模型来识别可交互图标区域和提取功能语义，有效地提高了代理系统在多样化环境中的鲁棒性和实用性。

OmniParser主要功能

截图解析：将用户界面的截图解析成结构化的元素，包括可交互图标和文本。
图标检测：识别用户界面中的可交互图标和按钮，并为它们生成边界框。
语义理解：理解截图中各种元素的语义，并准确关联预期动作与屏幕上的对应区域。
动作生成：增强GPT-4V等大型语言模型生成可准确定位在界面对应区域的动作。
性能提升：在多个基准测试中，如ScreenSpot、Mind2Web和AITW，显著提高模型的性能。

OmniParser技术原理

数据集构建：
- 利用流行网页的DOM树信息，构建了包含67k独特截图图像的可交互图标检测数据集。
- 为训练图标描述模型，构建了一个包含7k图标-描述对的数据集。
模型微调：
- 使用检测模型来解析屏幕上的可交互区域，并对这些区域进行边界框标记。
- 使用描述模型为检测到的元素生成功能描述，增强模型对图标的理解。
OCR集成：
- 集成OCR模块来提取文本的边界框，并与图标检测模块的输出合并。
局部语义融合：
- 将局部功能语义融入提示中，为每个检测到的图标生成描述，以及为每个文本框使用检测到的文本及其标签。
结构化表示：
- 将UI截图转换成类似于DOM的结构化表示，包括叠加有边界框和唯一ID的截图。
动作预测优化：
- 通过减轻GPT-4V处理屏幕解析阶段信息的负担，使其能够更专注于动作预测，从而提高整体的准确性和效率。
跨平台兼容性：
- 旨在为多种操作系统和应用程序提供一个通用的方法，不依赖于平台特定的信息，如HTML和Android中的视图层次结构。