Mobile-Agent-E:阿里等推出的新型移动助手框架

Mobile-Agent-E简介

Mobile-Agent-E是由伊利诺伊大学厄巴纳-香槟分校和阿里巴巴联合开发的新型移动助手框架。它通过分层多智能体架构和自我进化模块,显著提升了在复杂任务中的性能和效率。该框架将高级规划与低级动作执行分离,包含Manager、Perceptor、Operator、Action Reflector和Notetaker等智能体,分别负责任务分解、视觉感知、动作决策、结果验证和信息聚合。同时,Mobile-Agent-E引入了长期记忆模块,存储“Tips”和“Shortcuts”,用于从经验中学习并优化后续任务表现。在新基准Mobile-Eval-E测试中,Mobile-Agent-E展现出比现有方法更高的任务完成满意度和效率,为移动代理技术的发展提供了新的方向。

Mobile-Agent-E:阿里等推出的新型移动助手框架

Mobile-Agent-E主要功能

  1. 复杂任务分解与规划:将复杂的多步骤任务分解为多个子目标,并制定整体计划,逐步实现用户请求。
  2. 多应用交互:支持跨多个应用程序的交互操作,完成长周期、多步骤的任务。
  3. 自我进化与学习:通过长期记忆模块(Tips和Shortcuts),从过往任务中学习经验,优化后续任务的执行效率和准确性。
  4. 错误检测与恢复:实时监测操作结果,识别错误并尝试修正,必要时将问题上报至高级规划模块进行调整。
  5. 信息聚合与记录:在任务执行过程中,自动提取和记录关键信息,便于后续查询和决策。
  6. 高效操作执行:利用Shortcuts实现高频操作的自动化执行,减少重复步骤,提升任务执行速度。

Mobile-Agent-E技术原理

  1. 分层多智能体架构
    • 将任务执行分为高级规划(由Manager负责)和低级动作执行(由Operator负责),通过明确分工提升任务处理效率。
    • 配备Perceptor进行细粒度视觉感知,Action Reflector验证操作结果,Notetaker负责信息聚合,各智能体协同工作,实现复杂任务的高效完成。
  2. 长期记忆与自我进化
    • 维护长期记忆模块,存储Tips(一般性指导)和Shortcuts(可复用操作序列),并在每次任务结束后通过Experience Reflectors更新知识。
    • Tips提供任务执行的通用指导,Shortcuts则针对特定子任务提供高效的执行路径,两者共同提升任务的执行效率和成功率。
  3. 基于大语言模型的推理
    • 利用大型多模态模型(如GPT-4o)作为推理核心,赋予智能体强大的语言理解和生成能力,使其能够更好地理解用户指令并生成合理的操作计划。
  4. 动态任务执行与实时反馈
    • 在真实设备上实时执行任务,通过Android Debug Bridge(ADB)控制手机,实时获取屏幕截图并进行操作决策。
    • Action Reflector实时验证操作结果,若发现错误则触发错误恢复机制,必要时将问题上报至Manager进行调整,确保任务顺利进行。
  5. 任务满意度评估
    • 引入基于人类编写的评分标准(Satisfaction Score)评估任务完成情况,更贴近真实场景下的用户需求,而非单纯依赖固定的“成功”或“失败”标志。

Mobile-Agent-E应用场景

  1. 在线购物:比较不同平台的商品价格,找到最佳交易,例如在亚马逊、沃尔玛等应用中搜索产品并比较价格。
  2. 旅行规划:规划行程、预订机票或酒店,如在Booking或Tripadvisor上查找目的地信息并安排旅行计划。
  3. 信息搜索:跨多个应用搜索和整理信息,例如查找学术论文、用户评价或新闻动态。
  4. 餐饮推荐:在Google Maps上搜索附近餐厅或特定美食,并根据用户需求筛选结果。
  5. 任务管理:创建待办事项、笔记或日程安排,例如在Notes应用中记录重要信息或计划。
  6. 促销活动查询:检查特定商品的促销信息或优惠活动,例如在麦当劳或沃尔玛应用中查找优惠券或促销商品。

Mobile-Agent-E项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...