OmniParser:能描述出页面中的元素 并识别出可操作区域

OmniParser简介

OmniParser是由微软研究院开发的一种创新的视觉语言模型,旨在提升基于用户界面的代理系统在不同操作系统和应用程序中的操作能力。该工具通过解析用户界面截图,将其转换成结构化的元素,从而显著增强了如GPT-4V等大型多模态模型在各种用户任务中生成准确操作的能力。OmniParser通过微调专用模型来识别可交互图标区域和提取功能语义,有效地提高了代理系统在多样化环境中的鲁棒性和实用性。

OmniParser:能描述出页面中的元素 并识别出可操作区域

OmniParser主要功能

  1. 截图解析:将用户界面的截图解析成结构化的元素,包括可交互图标和文本。
  2. 图标检测:识别用户界面中的可交互图标和按钮,并为它们生成边界框。
  3. 语义理解:理解截图中各种元素的语义,并准确关联预期动作与屏幕上的对应区域。
  4. 动作生成:增强GPT-4V等大型语言模型生成可准确定位在界面对应区域的动作。
  5. 性能提升:在多个基准测试中,如ScreenSpot、Mind2Web和AITW,显著提高模型的性能。

OmniParser技术原理

  1. 数据集构建
    • 利用流行网页的DOM树信息,构建了包含67k独特截图图像的可交互图标检测数据集。
    • 为训练图标描述模型,构建了一个包含7k图标-描述对的数据集。
  2. 模型微调
    • 使用检测模型来解析屏幕上的可交互区域,并对这些区域进行边界框标记。
    • 使用描述模型为检测到的元素生成功能描述,增强模型对图标的理解。
  3. OCR集成
    • 集成OCR模块来提取文本的边界框,并与图标检测模块的输出合并。
  4. 局部语义融合
    • 将局部功能语义融入提示中,为每个检测到的图标生成描述,以及为每个文本框使用检测到的文本及其标签。
  5. 结构化表示
    • 将UI截图转换成类似于DOM的结构化表示,包括叠加有边界框和唯一ID的截图。
  6. 动作预测优化
    • 通过减轻GPT-4V处理屏幕解析阶段信息的负担,使其能够更专注于动作预测,从而提高整体的准确性和效率。
  7. 跨平台兼容性
    • 旨在为多种操作系统和应用程序提供一个通用的方法,不依赖于平台特定的信息,如HTML和Android中的视图层次结构。

OmniParser应用场景

  1. 网页自动化操作:在网页上自动执行点击、填写表单等任务,提升网页自动化测试和数据抓取的效率。
  2. 跨平台软件测试:对不同操作系统如Windows、MacOS或移动平台iOS、Android的应用进行自动化测试。
  3. 用户界面设计验证:通过模拟用户交互来验证新设计的用户界面是否符合预期的功能和用户体验。
  4. 辅助残障人士使用软件:帮助视觉或运动障碍人士通过语音或其它非传统方式控制软件界面。
  5. 自动化客户服务:在聊天机器人或客服系统中,自动理解用户通过截图提出的问题并提供解决方案。
  6. 教育和培训模拟:在教育软件中,根据用户界面截图自动生成操作步骤说明,辅助用户学习软件使用。

OmniParser项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...