Ferret-UI 2：苹果推出的专门用于理解UI的多模态模型

2-5.应用工具其他2个月前更新 AI-77

0 40

Ferret-UI 2简介

Ferret-UI 2是由苹果推出的专门用于理解UI的多模态模型，旨在实现跨多个平台的通用用户界面理解，包括iPhone、Android、iPad、Webpage和AppleTV。通过引入多平台支持、高分辨率感知和先进的任务训练数据生成，Ferret-UI 2在处理复杂、以用户为中心的交互方面表现出色，显著提升了跨平台的适应性和多样性。该模型在多个基准测试中展现了优越的性能，并具备强大的跨平台迁移能力，为未来构建通用UI导航代理奠定了坚实的基础。

Ferret-UI 2：苹果推出的专门用于理解UI的多模态模型

Ferret-UI 2主要功能

多平台UI理解：能够理解和交互包括智能手机、平板电脑、网页和智能电视在内的多种设备的用户界面。
高分辨率感知：通过自适应缩放技术，模型能够处理高分辨率的用户界面截图，以保持视觉元素的精确识别。
先进的任务训练数据生成：利用GPT4o和视觉提示技术生成高质量的训练数据，以提高模型对用户指令的理解和执行能力。
用户中心交互：支持用户中心的、自由形式的对话，能够执行单步用户中心的交互，而不仅仅是遵循机械的点击指令。
跨平台迁移能力：能够在不同平台间进行有效的迁移，即使在未见过的平台类型上也能表现出良好的性能。
细粒度的指代表达和理解：能够理解和执行精确的用户指令，如点击特定按钮或输入特定信息。

Ferret-UI 2技术原理

多模态大型语言模型（MLLM）：结合了视觉和语言模型，以理解和处理来自不同平台的UI数据。
自适应网格化（Adaptive Gridding）：一种优化的图像编码技术，能够在保持信息的同时，根据预定义的推理成本限制自动找到最优的网格配置。
视觉提示（Visual Prompting）：使用标记和编号的视觉提示来帮助模型更好地理解和定位UI元素，从而提高训练数据的质量。
高质量的训练数据生成：通过将简单的指代和定位数据转换为对话形式，以及使用GPT-4o生成包含多种UI理解方面的高级任务数据。
跨平台支持：模型设计了对不同平台的原生分辨率和布局的支持，使其能够无缝地在不同用户环境中扩展。
细粒度的指代和定位：通过人类收集的边界框注释和OCR技术，增强了对UI组件及其关系的理解精度。

Ferret-UI 2应用场景

智能手机应用交互：用户可以通过自然语言指令与手机应用进行交云，如“打开设置”或“发送消息”，Ferret-UI 2能理解并执行这些指令。
平板电脑界面操作：在平板设备上，模型能够识别和响应用户对于各种应用程序界面的操作请求，提升用户体验。
网页内容管理：用户可以通过Ferret-UI 2管理网页内容，例如搜索特定信息、填写表单或进行网页导航。
智能电视操作：在智能电视平台上，用户可以利用Ferret-UI 2进行频道切换、音量控制或播放列表管理等操作。
跨平台自动化测试：开发人员可以利用Ferret-UI 2进行跨平台的用户界面自动化测试，确保应用在不同设备上均能正常工作。
辅助残障人士操作设备：对于视觉或运动障碍人士，Ferret-UI 2可以提供语音控制界面，帮助他们更便捷地使用智能设备。

Ferret-UI 2项目入口

arXiv研究论文：https://arxiv.org/pdf/2410.18967

# 2-5.应用工具其他 # 2.应用工具相关 # AI项目库

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

IC-Portrait：ETH Zurich联合南洋理工等推出的个性化肖像生成框架

AI-77cn

40

Gemini 2.0 Flash：Google推出的多模态AI模型

AI-77cn

50

EliGen：阿里联合浙大等高校推出的实体级图像生成框架

AI-77cn

20

MagicArticulate：自动为静态3D模型生成骨架

AI-77cn

40

VFusion3D：根据单个图像或文本描述生成高质量的 3D 素材

AI-77cn

100

TITAN：哈佛医学院等推出的多模态全切片病理基础模型

AI-77cn

90

暂无评论

暂无评论...

一站式AI信息服务平台：AI工具大全、AI每日快讯、AI项目库、AI融资快报、AI研究报告、AI教程、AI副业、AI考证等。助您全面系统了解AI、使用AI

关于我们广告合作免责声明柒柒快讯

Copyright © 2025 柒柒AI导航粤ICP备2023146609号-1

粤公网安备44011102483711号