Aria-UI:能够将自然语言指令定位到GUI中的特定元素

Aria-UI简介

Aria-UI是一个专为图形用户界面(GUI)指令的视觉基础定位而设计的新型大型多模态模型。它采用纯视觉方法,不依赖于HTML或AXTree等辅助输入,通过一个可扩展的数据管道合成多样化和高质量的指令样本,以适应不同的规划指令。Aria-UI结合了文本和图文交织的动作历史,以处理任务执行中的动态上下文,从而在离线和在线代理基准测试中取得了新的最佳结果,超越了仅视觉和依赖AXTree的基线。该模型展示了强大的跨平台零样本泛化能力,是实现通用GUI定位的有力工具。

Aria-UI:能够将自然语言指令定位到GUI中的特定元素

Aria-UI主要功能

  1. 视觉基础定位(Visual Grounding):Aria-UI能够将自然语言指令定位到GUI中的特定元素。
  2. 多模态处理:结合视觉和语言信息,处理涉及GUI元素的复杂任务。
  3. 数据管道合成:通过数据管道合成多样化和高质量的指令样本,以适应不同的规划指令。
  4. 动态上下文处理:利用文本和图文交织的动作历史,处理任务执行中的动态上下文。
  5. 跨平台性能:在不同的平台(如网页、桌面和移动设备)上执行任务,展示跨平台的泛化能力。
  6. 零样本泛化:在未见过的界面和任务上展示出色的零样本泛化性能。

Aria-UI技术原理

  1. 纯视觉方法:不依赖于HTML或AXTree输入,而是完全基于视觉信息进行定位。
  2. 数据合成管道
    • 使用强大的多模态模型(LMM)生成详细的元素描述。
    • 利用语言模型(LLM)基于这些描述创建多样化的人类指令。
  3. 上下文感知扩展
    • 利用公开的代理轨迹数据模拟具有上下文的定位任务。
    • 构建文本动作历史和图文交织历史,提供丰富的上下文线索。
  4. 多模态MoE模型:基于Aria模型,一个具有3.9B激活参数的最先进的多模态Mixture-of-Experts模型。
  5. 超高分辨率支持:扩展图像处理能力,以支持更高分辨率的GUI图像。
  6. 训练和推理范式
    • 使用单步定位数据训练基础GUI定位能力。
    • 使用上下文感知数据进一步增强动态设置下的定位能力。
    • 在推理时输出归一化的像素坐标,适应动态环境。
  7. 零样本学习:在没有见过的任务和界面上,Aria-UI能够利用其训练中学到的知识进行有效的定位。

Aria-UI应用场景

  1. 自动化网页交互:Aria-UI可以自动执行网上购物、填写表单等网页任务,无需人工介入。
  2. 移动应用操作:在移动设备上,Aria-UI能够根据指令自动完成应用内的各种操作,如预订票务或浏览社交媒体。
  3. 桌面环境自动化:在桌面环境中,Aria-UI可以用于自动化日常的电脑任务,比如文件管理或应用程序设置。
  4. 专业工作流自动化:Aria-UI可以集成到专业软件中,自动化复杂的工作流程,提高工作效率。
  5. 客户服务自动化:在客户服务领域,Aria-UI可以通过自动化GUI操作来快速响应客户的查询和请求。
  6. 测试与质量保证:Aria-UI可以用于自动化软件测试,通过模拟用户交互来检测应用程序的缺陷和性能问题。

Aria-UI项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...