Ferret-UI 2:苹果推出的专门用于理解UI的多模态模型
Ferret-UI 2简介
Ferret-UI 2是由苹果推出的专门用于理解UI的多模态模型,旨在实现跨多个平台的通用用户界面理解,包括iPhone、Android、iPad、Webpage和AppleTV。通过引入多平台支持、高分辨率感知和先进的任务训练数据生成,Ferret-UI 2在处理复杂、以用户为中心的交互方面表现出色,显著提升了跨平台的适应性和多样性。该模型在多个基准测试中展现了优越的性能,并具备强大的跨平台迁移能力,为未来构建通用UI导航代理奠定了坚实的基础。
Ferret-UI 2主要功能
- 多平台UI理解:能够理解和交互包括智能手机、平板电脑、网页和智能电视在内的多种设备的用户界面。
- 高分辨率感知:通过自适应缩放技术,模型能够处理高分辨率的用户界面截图,以保持视觉元素的精确识别。
- 先进的任务训练数据生成:利用GPT4o和视觉提示技术生成高质量的训练数据,以提高模型对用户指令的理解和执行能力。
- 用户中心交互:支持用户中心的、自由形式的对话,能够执行单步用户中心的交互,而不仅仅是遵循机械的点击指令。
- 跨平台迁移能力:能够在不同平台间进行有效的迁移,即使在未见过的平台类型上也能表现出良好的性能。
- 细粒度的指代表达和理解:能够理解和执行精确的用户指令,如点击特定按钮或输入特定信息。
Ferret-UI 2技术原理
- 多模态大型语言模型(MLLM):结合了视觉和语言模型,以理解和处理来自不同平台的UI数据。
- 自适应网格化(Adaptive Gridding):一种优化的图像编码技术,能够在保持信息的同时,根据预定义的推理成本限制自动找到最优的网格配置。
- 视觉提示(Visual Prompting):使用标记和编号的视觉提示来帮助模型更好地理解和定位UI元素,从而提高训练数据的质量。
- 高质量的训练数据生成:通过将简单的指代和定位数据转换为对话形式,以及使用GPT-4o生成包含多种UI理解方面的高级任务数据。
- 跨平台支持:模型设计了对不同平台的原生分辨率和布局的支持,使其能够无缝地在不同用户环境中扩展。
- 细粒度的指代和定位:通过人类收集的边界框注释和OCR技术,增强了对UI组件及其关系的理解精度。
Ferret-UI 2应用场景
- 智能手机应用交互:用户可以通过自然语言指令与手机应用进行交云,如“打开设置”或“发送消息”,Ferret-UI 2能理解并执行这些指令。
- 平板电脑界面操作:在平板设备上,模型能够识别和响应用户对于各种应用程序界面的操作请求,提升用户体验。
- 网页内容管理:用户可以通过Ferret-UI 2管理网页内容,例如搜索特定信息、填写表单或进行网页导航。
- 智能电视操作:在智能电视平台上,用户可以利用Ferret-UI 2进行频道切换、音量控制或播放列表管理等操作。
- 跨平台自动化测试:开发人员可以利用Ferret-UI 2进行跨平台的用户界面自动化测试,确保应用在不同设备上均能正常工作。
- 辅助残障人士操作设备:对于视觉或运动障碍人士,Ferret-UI 2可以提供语音控制界面,帮助他们更便捷地使用智能设备。
Ferret-UI 2项目入口
- arXiv研究论文:https://arxiv.org/pdf/2410.18967
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...