Mobile-Agent-E:阿里等推出的新型移动助手框架
Mobile-Agent-E简介
Mobile-Agent-E是由伊利诺伊大学厄巴纳-香槟分校和阿里巴巴联合开发的新型移动助手框架。它通过分层多智能体架构和自我进化模块,显著提升了在复杂任务中的性能和效率。该框架将高级规划与低级动作执行分离,包含Manager、Perceptor、Operator、Action Reflector和Notetaker等智能体,分别负责任务分解、视觉感知、动作决策、结果验证和信息聚合。同时,Mobile-Agent-E引入了长期记忆模块,存储“Tips”和“Shortcuts”,用于从经验中学习并优化后续任务表现。在新基准Mobile-Eval-E测试中,Mobile-Agent-E展现出比现有方法更高的任务完成满意度和效率,为移动代理技术的发展提供了新的方向。

Mobile-Agent-E主要功能
-
复杂任务分解与规划:将复杂的多步骤任务分解为多个子目标,并制定整体计划,逐步实现用户请求。
-
多应用交互:支持跨多个应用程序的交互操作,完成长周期、多步骤的任务。
-
自我进化与学习:通过长期记忆模块(Tips和Shortcuts),从过往任务中学习经验,优化后续任务的执行效率和准确性。
-
错误检测与恢复:实时监测操作结果,识别错误并尝试修正,必要时将问题上报至高级规划模块进行调整。
-
信息聚合与记录:在任务执行过程中,自动提取和记录关键信息,便于后续查询和决策。
-
高效操作执行:利用Shortcuts实现高频操作的自动化执行,减少重复步骤,提升任务执行速度。
Mobile-Agent-E技术原理
-
分层多智能体架构:
-
将任务执行分为高级规划(由Manager负责)和低级动作执行(由Operator负责),通过明确分工提升任务处理效率。
-
配备Perceptor进行细粒度视觉感知,Action Reflector验证操作结果,Notetaker负责信息聚合,各智能体协同工作,实现复杂任务的高效完成。
-
-
长期记忆与自我进化:
-
维护长期记忆模块,存储Tips(一般性指导)和Shortcuts(可复用操作序列),并在每次任务结束后通过Experience Reflectors更新知识。
-
Tips提供任务执行的通用指导,Shortcuts则针对特定子任务提供高效的执行路径,两者共同提升任务的执行效率和成功率。
-
-
基于大语言模型的推理:
-
利用大型多模态模型(如GPT-4o)作为推理核心,赋予智能体强大的语言理解和生成能力,使其能够更好地理解用户指令并生成合理的操作计划。
-
-
动态任务执行与实时反馈:
-
在真实设备上实时执行任务,通过Android Debug Bridge(ADB)控制手机,实时获取屏幕截图并进行操作决策。
-
Action Reflector实时验证操作结果,若发现错误则触发错误恢复机制,必要时将问题上报至Manager进行调整,确保任务顺利进行。
-
-
任务满意度评估:
-
引入基于人类编写的评分标准(Satisfaction Score)评估任务完成情况,更贴近真实场景下的用户需求,而非单纯依赖固定的“成功”或“失败”标志。
-
Mobile-Agent-E应用场景
-
在线购物:比较不同平台的商品价格,找到最佳交易,例如在亚马逊、沃尔玛等应用中搜索产品并比较价格。
-
旅行规划:规划行程、预订机票或酒店,如在Booking或Tripadvisor上查找目的地信息并安排旅行计划。
-
信息搜索:跨多个应用搜索和整理信息,例如查找学术论文、用户评价或新闻动态。
-
餐饮推荐:在Google Maps上搜索附近餐厅或特定美食,并根据用户需求筛选结果。
-
任务管理:创建待办事项、笔记或日程安排,例如在Notes应用中记录重要信息或计划。
-
促销活动查询:检查特定商品的促销信息或优惠活动,例如在麦当劳或沃尔玛应用中查找优惠券或促销商品。
Mobile-Agent-E项目入口
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...