Mobile-Agent-E：阿里等推出的新型移动助手框架

0 40

Mobile-Agent-E简介

Mobile-Agent-E是由伊利诺伊大学厄巴纳-香槟分校和阿里巴巴联合开发的新型移动助手框架。它通过分层多智能体架构和自我进化模块，显著提升了在复杂任务中的性能和效率。该框架将高级规划与低级动作执行分离，包含Manager、Perceptor、Operator、Action Reflector和Notetaker等智能体，分别负责任务分解、视觉感知、动作决策、结果验证和信息聚合。同时，Mobile-Agent-E引入了长期记忆模块，存储“Tips”和“Shortcuts”，用于从经验中学习并优化后续任务表现。在新基准Mobile-Eval-E测试中，Mobile-Agent-E展现出比现有方法更高的任务完成满意度和效率，为移动代理技术的发展提供了新的方向。

Mobile-Agent-E主要功能

复杂任务分解与规划：将复杂的多步骤任务分解为多个子目标，并制定整体计划，逐步实现用户请求。
多应用交互：支持跨多个应用程序的交互操作，完成长周期、多步骤的任务。
自我进化与学习：通过长期记忆模块（Tips和Shortcuts），从过往任务中学习经验，优化后续任务的执行效率和准确性。
错误检测与恢复：实时监测操作结果，识别错误并尝试修正，必要时将问题上报至高级规划模块进行调整。
信息聚合与记录：在任务执行过程中，自动提取和记录关键信息，便于后续查询和决策。
高效操作执行：利用Shortcuts实现高频操作的自动化执行，减少重复步骤，提升任务执行速度。

Mobile-Agent-E技术原理

分层多智能体架构：
- 将任务执行分为高级规划（由Manager负责）和低级动作执行（由Operator负责），通过明确分工提升任务处理效率。
- 配备Perceptor进行细粒度视觉感知，Action Reflector验证操作结果，Notetaker负责信息聚合，各智能体协同工作，实现复杂任务的高效完成。
长期记忆与自我进化：
- 维护长期记忆模块，存储Tips（一般性指导）和Shortcuts（可复用操作序列），并在每次任务结束后通过Experience Reflectors更新知识。
- Tips提供任务执行的通用指导，Shortcuts则针对特定子任务提供高效的执行路径，两者共同提升任务的执行效率和成功率。
基于大语言模型的推理：
- 利用大型多模态模型（如GPT-4o）作为推理核心，赋予智能体强大的语言理解和生成能力，使其能够更好地理解用户指令并生成合理的操作计划。
动态任务执行与实时反馈：
- 在真实设备上实时执行任务，通过Android Debug Bridge（ADB）控制手机，实时获取屏幕截图并进行操作决策。
- Action Reflector实时验证操作结果，若发现错误则触发错误恢复机制，必要时将问题上报至Manager进行调整，确保任务顺利进行。
任务满意度评估：
- 引入基于人类编写的评分标准（Satisfaction Score）评估任务完成情况，更贴近真实场景下的用户需求，而非单纯依赖固定的“成功”或“失败”标志。