UFO²:微软推出的Windows桌面的多智能体操作系统
UFO²项目简介
UFO² 是由微软公司联合浙江大学伊利诺伊大学厄巴纳香槟校区联合学院、南京大学、北京大学等高校的研究团队共同开发的一款面向Windows桌面的多智能体操作系统(AgentOS)。该系统通过深度整合操作系统功能,利用多模态大语言模型(LLM)实现自然语言驱动的复杂桌面工作流自动化。UFO2采用集中式的HostAgent进行任务分解与协调,并配备多个针对特定应用的AppAgent,这些Agent具备原生API、领域知识以及统一的GUI-API动作层,能够高效执行任务并保持模块化与可扩展性。此外,UFO2还引入了混合控制检测流程、持续知识整合机制、推测性多动作执行引擎以及非干扰式用户体验界面,显著提升了桌面自动化的鲁棒性、执行准确性和用户体验。

UFO²主要功能
-
深度操作系统集成:
-
UFO²通过深度集成Windows操作系统功能,实现对桌面应用的系统级控制和自动化。
-
它利用Windows UI Automation(UIA)API和应用级API,提供对GUI界面和应用内部状态的精细操作。
-
支持跨应用工作流,例如从Excel中提取数据并填充到Web表单中。
-
-
混合GUI-API动作层:
-
UFO²结合了传统的GUI操作(如鼠标点击、键盘输入)和应用原生API调用。
-
通过统一的Puppeteer接口,代理可以在GUI操作和API调用之间无缝切换,提高执行效率和鲁棒性。
-
-
混合控制检测:
-
UFO²采用混合控制检测技术,结合UIA和基于视觉的解析,能够可靠地识别标准和自定义GUI元素。
-
这种技术弥补了UIA在非标准界面中的不足,同时利用视觉模型识别未被UIA覆盖的控件。
-
-
持续知识整合:
-
UFO²通过检索增强型记忆层,整合外部文档和历史执行日志,使代理能够自主学习和改进。
-
它支持从文档中提取任务指导,并结合过去的执行经验,优化未来的任务执行。
-
-
推测性多动作执行:
-
UFO²通过推测性多动作执行技术,减少LLM调用的频率。
-
它在单次推理中预测多个可能的动作,并在执行前验证这些动作的可行性,从而提高效率。
-
-
非干扰式用户体验(UX):
-
UFO²引入了Picture-in-Picture(PiP)界面,允许代理在隔离的虚拟桌面中独立执行任务。
-
这种设计避免了代理操作对用户主桌面的干扰,提高了用户体验。
-
UFO²技术原理
-
多智能体架构:
-
UFO²采用多智能体架构,包括一个中央HostAgent和多个应用特定的AppAgent。
-
HostAgent负责任务分解、调度和全局状态管理,AppAgent负责具体应用的操作和执行。
-
这种架构支持模块化开发和扩展,允许开发者为不同应用定制AppAgent。
-
-
混合控制检测技术:
-
UFO²结合了Windows UI Automation(UIA)API和基于视觉的解析模型(如OmniParser-v2)。
-
UIA用于获取标准GUI元素的结构化信息,视觉模型用于识别UIA无法覆盖的自定义控件。
-
通过融合这两种技术,UFO²能够更全面地感知应用界面。
-
-
统一GUI-API动作接口:
-
UFO²通过Puppeteer接口统一了GUI操作和API调用。
-
Puppeteer根据当前应用状态和任务需求,动态选择最适合的执行方式(GUI操作或API调用)。
-
这种混合执行模型提高了任务执行的效率和鲁棒性。
-
-
持续知识整合机制:
-
UFO²通过检索增强型记忆层,整合外部文档和历史执行日志。
-
代理在执行任务时,可以从知识库中检索相关的任务指导和执行经验,优化决策过程。
-
这种机制使UFO²能够随着时间推移不断改进,无需重新训练模型。
-
-
推测性多动作执行引擎:
-
UFO²通过推测性多动作执行技术,减少LLM调用的频率。
-
它在单次推理中预测多个可能的动作,并在执行前通过轻量级控制状态检查验证这些动作的可行性。
-
这种技术显著降低了推理开销,同时保持了执行的正确性。
-
-
Picture-in-Picture(PiP)界面:
-
UFO²利用Windows的远程桌面循环回放功能,创建了一个隔离的虚拟桌面环境。
-
代理在PiP界面中独立执行任务,不影响用户在主桌面的正常操作。
-
这种设计提高了用户体验,避免了自动化任务对用户操作的干扰。
-
UFO²应用场景
-
办公自动化:
-
自动化处理Excel数据,如批量生成图表、数据清洗和格式化。
-
在Outlook中自动整理邮件、安排会议和发送通知。
-
-
文档处理:
-
在Word中自动排版文档、插入表格和图片,以及生成目录。
-
自动将文档转换为PDF或其他格式。
-
-
数据录入与处理:
-
自动从网页或数据库中提取数据并录入到Excel或其他应用程序中。
-
对数据进行批量处理,如计算、筛选和汇总。
-
-
网页自动化:
-
自动浏览网页,填写表单,下载文件。
-
在多个网页之间切换,完成复杂的网页操作任务。
-
-
系统管理与维护:
-
自动备份文件和文件夹,清理临时文件。
-
监控系统资源使用情况,自动执行优化操作。
-
-
多媒体处理:
-
在PowerPoint中自动创建演示文稿,添加动画和过渡效果。
-
自动处理图片和视频文件,如批量裁剪、格式转换等。
-
UFO²项目入口
- 项目主页:https://microsoft.github.io/UFO
- GitHub代码库:https://github.com/microsoft/UFO
- arXiv技术论文:https://arxiv.org/pdf/2504.14603
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...