EMMA-X:新加坡科技设计大学推出的多模态动作模型
EMMA-X简介
EMMA-X是由新加坡科技设计大学的研究团队开发的一个多模态动作模型,它通过结合具体化的思考链和前瞻性空间推理,显著提升了机器人在复杂任务中的执行能力和泛化性。该模型利用基于BridgeV2构建的层次化体现数据集,包含60,000个自动标注的机器人操作轨迹,通过轨迹分割策略和具体化推理,优化了机器人对指令的理解和空间推理能力,使其在真实世界的机器人任务中表现出色。
EMMA-X主要功能
- 多模态输入处理:EMMA-X能够处理包括图像、文本和机器人动作在内的多模态输入,使其能够理解和执行基于视觉和语言的任务指令。
- 具体化思考链(Grounded Chain of Thought):通过生成与任务相关的子任务和推理链,EMMA-X能够将复杂任务分解为可管理的步骤。
- 前瞻性空间推理(Look-ahead Spatial Reasoning):模型能够预测夹爪的未来2D位置和3D运动计划,以实现更长远的任务规划。
- 真实机器人操作:EMMA-X能够将生成的动作策略直接应用于真实世界的机器人,实现闭环控制。
- 泛化能力:该模型在多样化环境和任务中展现出较强的泛化能力,能够处理未见过的物体和指令。
EMMA-X技术原理
- 层次化体现数据集:基于BridgeV2构建的数据集,包含大量的机器人操作轨迹,并自动标注了具体化任务推理和空间指导。
- 轨迹分割策略:通过分析夹爪状态和运动轨迹,将操作序列分割成具有语义相似性的连续状态序列,以增强上下文信息。
- 具体化推理:利用Gemini模型,结合分割的视觉图像和任务描述,生成与每个片段相对应的子任务和具体化推理。
- 前瞻性空间推理:预测夹爪的未来位置和必要的3D运动计划,以实现从当前状态到未来状态的过渡。
- 动作策略输出:模型输出一个7维向量,编码了末端执行器(夹爪)的笛卡尔分量(x, y, z)、方向分量(滚转、俯仰、偏航)和夹爪的开合动作。
- 层次化政策模仿学习:通过将任务分解为子任务,并为每个状态生成相应的子任务标签,模型能够通过模仿学习来执行复杂任务。
- OpenVLA框架:EMMA-X基于OpenVLA框架进行微调,利用其构建的层次化体现数据集,增强了空间推理和场景理解能力。
EMMA-X应用场景
- 家庭自动化:在智能家居环境中,EMMA-X可以控制机器人执行日常任务,如清洁、整理物品或开关电器。
- 工业自动化:在制造业中,EMMA-X能够指导机器人进行精确的组装工作,提高生产线的效率和灵活性。
- 服务机器人:在餐饮或酒店业,EMMA-X可以辅助机器人提供客户服务,如送餐或房间清洁。
- 医疗辅助:在医疗领域,EMMA-X可以帮助机器人进行手术辅助或药物分发,提高医疗操作的精确度。
- 灾难救援:在灾难现场,EMMA-X可以控制机器人进行搜救工作,穿越复杂环境以定位和救助受害者。
- 农业自动化:在农业中,EMMA-X可以指导机器人进行种植、收割和作物管理,提高农业生产效率。
EMMA-X项目入口
- GitHub代码库:https://github.com/declare-lab/Emma-X
- HuggingFace:https://huggingface.co/declare-lab/Emma-X
- arXiv技术论文:https://arxiv.org/pdf/2412.11974
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...