EMMA-X：新加坡科技设计大学推出的多模态动作模型

2-5.应用工具其他4周前更新 AI-77

0 20

EMMA-X简介

EMMA-X是由新加坡科技设计大学的研究团队开发的一个多模态动作模型，它通过结合具体化的思考链和前瞻性空间推理，显著提升了机器人在复杂任务中的执行能力和泛化性。该模型利用基于BridgeV2构建的层次化体现数据集，包含60,000个自动标注的机器人操作轨迹，通过轨迹分割策略和具体化推理，优化了机器人对指令的理解和空间推理能力，使其在真实世界的机器人任务中表现出色。

EMMA-X：新加坡科技设计大学推出的多模态动作模型

EMMA-X主要功能

多模态输入处理：EMMA-X能够处理包括图像、文本和机器人动作在内的多模态输入，使其能够理解和执行基于视觉和语言的任务指令。
具体化思考链（Grounded Chain of Thought）：通过生成与任务相关的子任务和推理链，EMMA-X能够将复杂任务分解为可管理的步骤。
前瞻性空间推理（Look-ahead Spatial Reasoning）：模型能够预测夹爪的未来2D位置和3D运动计划，以实现更长远的任务规划。
真实机器人操作：EMMA-X能够将生成的动作策略直接应用于真实世界的机器人，实现闭环控制。
泛化能力：该模型在多样化环境和任务中展现出较强的泛化能力，能够处理未见过的物体和指令。

EMMA-X技术原理

层次化体现数据集：基于BridgeV2构建的数据集，包含大量的机器人操作轨迹，并自动标注了具体化任务推理和空间指导。
轨迹分割策略：通过分析夹爪状态和运动轨迹，将操作序列分割成具有语义相似性的连续状态序列，以增强上下文信息。
具体化推理：利用Gemini模型，结合分割的视觉图像和任务描述，生成与每个片段相对应的子任务和具体化推理。
前瞻性空间推理：预测夹爪的未来位置和必要的3D运动计划，以实现从当前状态到未来状态的过渡。
动作策略输出：模型输出一个7维向量，编码了末端执行器（夹爪）的笛卡尔分量（x, y, z）、方向分量（滚转、俯仰、偏航）和夹爪的开合动作。
层次化政策模仿学习：通过将任务分解为子任务，并为每个状态生成相应的子任务标签，模型能够通过模仿学习来执行复杂任务。
OpenVLA框架：EMMA-X基于OpenVLA框架进行微调，利用其构建的层次化体现数据集，增强了空间推理和场景理解能力。

EMMA-X应用场景

家庭自动化：在智能家居环境中，EMMA-X可以控制机器人执行日常任务，如清洁、整理物品或开关电器。
工业自动化：在制造业中，EMMA-X能够指导机器人进行精确的组装工作，提高生产线的效率和灵活性。
服务机器人：在餐饮或酒店业，EMMA-X可以辅助机器人提供客户服务，如送餐或房间清洁。
医疗辅助：在医疗领域，EMMA-X可以帮助机器人进行手术辅助或药物分发，提高医疗操作的精确度。
灾难救援：在灾难现场，EMMA-X可以控制机器人进行搜救工作，穿越复杂环境以定位和救助受害者。
农业自动化：在农业中，EMMA-X可以指导机器人进行种植、收割和作物管理，提高农业生产效率。

EMMA-X项目入口

GitHub代码库：https://github.com/declare-lab/Emma-X
HuggingFace：https://huggingface.co/declare-lab/Emma-X
arXiv技术论文：https://arxiv.org/pdf/2412.11974

# 2-5.应用工具其他 # 2.应用工具相关 # AI开源项目 # AI项目库

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Kiss3DGen：香港科技大学等推出的3D生成框架

AI-77cn

30

Deepfake Defenders：识别和防范Deepfake技术生成的伪造图像和视频

AI-77cn

90

Baichuan-Audio：Baichuan推出的端到端音频大语言模型

AI-77cn

80

英伟达【NVIDIA】开源3400亿参数大模型Nemotron-4 340B

AI-77cn

10

StoryMaker：小红书开源的文生图一致性解决方案

AI-77cn

70

UIP2P：一种无监督指令驱动图像编辑框架

AI-77cn

30

暂无评论

暂无评论...

一站式AI信息服务平台：AI工具大全、AI每日快讯、AI项目库、AI融资快报、AI研究报告、AI教程、AI副业、AI考证等。助您全面系统了解AI、使用AI

关于我们广告合作免责声明柒柒快讯

Copyright © 2025 柒柒AI导航粤ICP备2023146609号-1

粤公网安备44011102483711号