UFO²:微软推出的Windows桌面的多智能体操作系统

UFO²项目简介

UFO² 是由微软公司联合浙江大学伊利诺伊大学厄巴纳香槟校区联合学院、南京大学、北京大学等高校的研究团队共同开发的一款面向Windows桌面的多智能体操作系统(AgentOS)。该系统通过深度整合操作系统功能,利用多模态大语言模型(LLM)实现自然语言驱动的复杂桌面工作流自动化。UFO2采用集中式的HostAgent进行任务分解与协调,并配备多个针对特定应用的AppAgent,这些Agent具备原生API、领域知识以及统一的GUI-API动作层,能够高效执行任务并保持模块化与可扩展性。此外,UFO2还引入了混合控制检测流程、持续知识整合机制、推测性多动作执行引擎以及非干扰式用户体验界面,显著提升了桌面自动化的鲁棒性、执行准确性和用户体验。

UFO²:微软推出的Windows桌面的多智能体操作系统

UFO²主要功能

  1. 深度操作系统集成
    • UFO²通过深度集成Windows操作系统功能,实现对桌面应用的系统级控制和自动化。
    • 它利用Windows UI Automation(UIA)API和应用级API,提供对GUI界面和应用内部状态的精细操作。
    • 支持跨应用工作流,例如从Excel中提取数据并填充到Web表单中。
  2. 混合GUI-API动作层
    • UFO²结合了传统的GUI操作(如鼠标点击、键盘输入)和应用原生API调用。
    • 通过统一的Puppeteer接口,代理可以在GUI操作和API调用之间无缝切换,提高执行效率和鲁棒性。
  3. 混合控制检测
    • UFO²采用混合控制检测技术,结合UIA和基于视觉的解析,能够可靠地识别标准和自定义GUI元素。
    • 这种技术弥补了UIA在非标准界面中的不足,同时利用视觉模型识别未被UIA覆盖的控件。
  4. 持续知识整合
    • UFO²通过检索增强型记忆层,整合外部文档和历史执行日志,使代理能够自主学习和改进。
    • 它支持从文档中提取任务指导,并结合过去的执行经验,优化未来的任务执行。
  5. 推测性多动作执行
    • UFO²通过推测性多动作执行技术,减少LLM调用的频率。
    • 它在单次推理中预测多个可能的动作,并在执行前验证这些动作的可行性,从而提高效率。
  6. 非干扰式用户体验(UX)
    • UFO²引入了Picture-in-Picture(PiP)界面,允许代理在隔离的虚拟桌面中独立执行任务。
    • 这种设计避免了代理操作对用户主桌面的干扰,提高了用户体验。

UFO²技术原理

  1. 多智能体架构
    • UFO²采用多智能体架构,包括一个中央HostAgent和多个应用特定的AppAgent。
    • HostAgent负责任务分解、调度和全局状态管理,AppAgent负责具体应用的操作和执行。
    • 这种架构支持模块化开发和扩展,允许开发者为不同应用定制AppAgent。
  2. 混合控制检测技术
    • UFO²结合了Windows UI Automation(UIA)API和基于视觉的解析模型(如OmniParser-v2)。
    • UIA用于获取标准GUI元素的结构化信息,视觉模型用于识别UIA无法覆盖的自定义控件。
    • 通过融合这两种技术,UFO²能够更全面地感知应用界面。
  3. 统一GUI-API动作接口
    • UFO²通过Puppeteer接口统一了GUI操作和API调用。
    • Puppeteer根据当前应用状态和任务需求,动态选择最适合的执行方式(GUI操作或API调用)。
    • 这种混合执行模型提高了任务执行的效率和鲁棒性。
  4. 持续知识整合机制
    • UFO²通过检索增强型记忆层,整合外部文档和历史执行日志。
    • 代理在执行任务时,可以从知识库中检索相关的任务指导和执行经验,优化决策过程。
    • 这种机制使UFO²能够随着时间推移不断改进,无需重新训练模型。
  5. 推测性多动作执行引擎
    • UFO²通过推测性多动作执行技术,减少LLM调用的频率。
    • 它在单次推理中预测多个可能的动作,并在执行前通过轻量级控制状态检查验证这些动作的可行性。
    • 这种技术显著降低了推理开销,同时保持了执行的正确性。
  6. Picture-in-Picture(PiP)界面
    • UFO²利用Windows的远程桌面循环回放功能,创建了一个隔离的虚拟桌面环境。
    • 代理在PiP界面中独立执行任务,不影响用户在主桌面的正常操作。
    • 这种设计提高了用户体验,避免了自动化任务对用户操作的干扰。

UFO²应用场景

  1. 办公自动化
    • 自动化处理Excel数据,如批量生成图表、数据清洗和格式化。
    • 在Outlook中自动整理邮件、安排会议和发送通知。
  2. 文档处理
    • 在Word中自动排版文档、插入表格和图片,以及生成目录。
    • 自动将文档转换为PDF或其他格式。
  3. 数据录入与处理
    • 自动从网页或数据库中提取数据并录入到Excel或其他应用程序中。
    • 对数据进行批量处理,如计算、筛选和汇总。
  4. 网页自动化
    • 自动浏览网页,填写表单,下载文件。
    • 在多个网页之间切换,完成复杂的网页操作任务。
  5. 系统管理与维护
    • 自动备份文件和文件夹,清理临时文件。
    • 监控系统资源使用情况,自动执行优化操作。
  6. 多媒体处理
    • 在PowerPoint中自动创建演示文稿,添加动画和过渡效果。
    • 自动处理图片和视频文件,如批量裁剪、格式转换等。

UFO²项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...