AutoDroid-V2:清华大学推出的移动UI自动化代理系统
AutoDroid-V2 简介
AutoDroid-V2 是由清华大学人工智能产业研究院(AIR)开发的一款创新的移动 UI 自动化代理系统。该系统通过将 UI 任务自动化问题转化为代码生成问题,利用小型语言模型(SLM)的编码能力,有效解决了传统基于大语言模型(LLM)的 UI 代理在本地设备部署时面临的隐私和成本问题。AutoDroid-V2 采用文档为中心的方法,自动为每个应用构建细粒度的 API 文档,并生成多样化的任务样本,引导代理生成精确高效的脚本以完成未见任务。在多个基准测试中,AutoDroid-V2 显著提高了任务完成率,降低了运行时输入输出 token 消耗和 LLM 推理延迟,展现出其在移动任务自动化领域的巨大潜力和优势.
AutoDroid-V2 主要功能
- UI 任务自动化:能够根据用户提供的自然语言任务指令,自动完成移动设备上的 UI 交互任务,如打开应用、输入文本、点击按钮等.
- 代码生成与执行:将 UI 任务自动化问题转换为代码生成问题,生成多步脚本并执行,以完成复杂的 UI 任务,提高任务执行的效率和准确性.
- 应用文档构建:自动为每个应用构建细粒度的 API 文档,包含应用的典型 GUI 状态、重要元素及其功能描述、GUI 转移关系等,为代码生成提供指导.
- 任务样本生成:基于应用文档合成大规模的用户任务样本及其对应的解决方案,用于对设备上的小型语言模型进行微调,提升其任务自动化能力.
AutoDroid-V2 技术原理
- 文档为中心的方法:通过分析应用的探索历史,自动构建应用的 API 文档,该文档详细描述了应用的 UI 元素、功能和交互逻辑,为代码生成提供了丰富的背景知识和指导信息.
- 代码生成技术:利用小型语言模型的编码能力,根据用户任务指令和应用文档,生成能够完成特定 UI 任务的多步脚本代码.该过程涉及对用户任务的理解、任务与 UI 元素的映射、代码逻辑的构建等.
- 领域特定语言(DSL):在代码生成过程中,采用领域特定语言来高效处理运行时的动态性,如 GUI 元素的变化、应用状态的转换等,确保生成的代码能够准确地与 UI 元素交互并完成任务.
- 任务样本合成与微调:通过合成大量的任务样本及其解决方案,对设备上的小型语言模型进行微调,使其更好地理解和执行与特定应用相关的 UI 任务,提高模型在实际任务中的表现和准确性.
AutoDroid-V2 应用场景
- 社交媒体管理:自动发布内容到多个社交媒体平台,如同时在微博、微信朋友圈等发布图文或视频,无需手动切换应用,提高效率.
- 日程安排与提醒:根据用户的日程安排,自动在手机日历应用中创建事件、设置提醒,如会议、生日、纪念日等,确保用户不错过任何重要事项.
- 购物比价与下单:在多个电商应用中自动搜索商品、比较价格和优惠信息,找到最优选项后自动下单并完成支付,节省用户时间和精力.
- 旅行规划与预订:整合航班、酒店、景点等信息,自动规划旅行路线,预订机票、酒店房间和门票,为用户提供一站式的旅行服务.
- 健康监测与记录:从健康类应用中自动收集用户的健康数据,如步数、心率、睡眠质量等,生成健康报告并提醒用户按时服药、锻炼等.
- 办公自动化:自动完成办公应用中的重复性任务,如批量处理邮件、填写报销单、整理会议记录等,提高工作效率,让员工专注于更有价值的工作.
AutoDroid-V2 项目入口
- arXiv技术论文:https://arxiv.org/pdf/2412.18116
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...