Magma:微软研究院等推出的多模态基础模型

Magma简介

Magma是由微软研究院、马里兰大学、威斯康星大学麦迪逊分校、KAIST和华盛顿大学的研究团队共同开发的多模态基础模型,旨在为数字和物理环境中的多模态AI智能体任务提供强大的支持。该模型通过结合视觉、语言和动作数据,不仅具备出色的多模态理解能力,还能在视觉空间世界中进行有效规划和行动。开发团队通过创新的Set-of-Mark(SoM)和Trace-of-Mark(ToM)技术,显著提升了模型的空间-时间智能,使其能够从大量异构数据中学习。Magma在UI导航、机器人操作和多模态理解等任务上均展现出卓越性能,为多模态AI智能体的发展树立了新的标杆。

Magma:微软研究院等推出的多模态基础模型

Magma主要功能

  1. 多模态理解:Magma能够理解来自不同领域(数字和物理环境)的多模态输入,包括图像、视频和文本,不仅在语义上理解,还能在空间和时间上进行理解。
  2. 动作预测:Magma可以将长时间的任务分解成准确的动作序列,并由AI智能体系统有效执行。这些系统可以根据人类命令驱动,完成从UI导航到机器人操作的各种任务。
  3. UI导航:Magma在数字环境中能够进行用户界面(UI)导航,处理如“预订酒店”或“点击按钮”等任务。
  4. 机器人操作:在物理环境中,Magma能够进行机器人操作任务,如“关闭抽屉”或“将物体放入篮子”。
  5. 视频和图像问答:Magma在视频和图像相关的多模态任务中表现出色,能够进行视觉问答(VQA)和视频理解。

Magma技术原理

  1. Set-of-Mark (SoM) 技术
    • 定义:SoM用于标记图像中的可操作对象,如GUI中的可点击按钮。
    • 作用:通过标记图像中的可操作对象,SoM显著增强了模型的视觉-语言接地能力,使模型能够更好地理解和执行图像中的动作。
  2. Trace-of-Mark (ToM) 技术
    • 定义:ToM用于标记视频中对象的运动轨迹,如人手或机器人手臂的运动路径。
    • 作用:通过标记视频中的对象运动轨迹,ToM增强了模型的空间-时间智能,使其能够进行动作规划和预测。
  3. 多模态预训练
    • 数据集:Magma在大量异构数据集上进行预训练,包括图像、视频和机器人数据。
    • 预训练任务:通过SoM和ToM技术,将图像和视频数据转化为“视觉-语言-动作”数据,模型在这些数据上进行预训练,学习多模态理解和动作预测能力。
  4. 统一的预训练接口
    • 视觉编码器:使用ConvNeXt作为视觉编码器,将视觉观察编码为一系列标记。
    • 语言模型:采用解码器仅的语言模型(LLM),将视觉和语言标记输入到LLM中进行自回归解码,生成动作序列。
  5. 跨任务和领域的泛化能力
    • 零样本评估:Magma在多个任务上进行了零样本评估,展示了其在不同任务和领域中的泛化能力。
    • 微调能力:通过在特定任务上的微调,Magma能够进一步提升其在这些任务上的表现。

Magma应用场景

  1. UI自动化操作:在网页或移动应用中,Magma可以自动执行用户界面操作,如点击按钮、输入文本、滑动屏幕等,适用于自动化测试或辅助用户操作。
  2. 机器人操作:在物理环境中,Magma能够控制机器人完成复杂的操作任务,如抓取、移动物体、打开抽屉等,适用于工业自动化和家庭服务机器人。
  3. 视频内容理解:Magma可以分析视频中的动作和事件,回答与视频内容相关的问题,适用于视频监控、内容推荐和视频编辑等领域。
  4. 图像问答:Magma能够理解图像内容并回答相关问题,如识别图像中的物体、场景或人物,适用于智能客服和图像标注等场景。
  5. 智能导航:在数字环境中,Magma可以帮助用户完成复杂的导航任务,如在网页中查找信息、在地图上规划路线等。
  6. 教育辅助:Magma可以用于教育领域,帮助学生理解复杂的视觉和语言信息,如解析图表、解释科学实验过程等,提升学习体验。

Magma项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...