GO-1:智元机器人团队开发的通用具身基座大模型

GO-1简介

智元机器人最新推出了Genie Operator-1(GO-1),这是一款创新的通用体化基础模型。GO-1基于Vision-Language-Latent-Action(ViLLA)框架,融合了视觉语言模型(VLM)和专家混合(MoE)架构。它通过大规模互联网异构数据构建场景理解基础,并利用超过百万的真实机器人演示数据实现高频、灵活的操作能力。GO-1具备从人类视频中学习、少样本泛化、跨体化适应以及持续自我进化等独特能力。它在多种复杂任务中表现出色,相比现有模型成功率达78%,显著提升32%。AgiBot团队通过GO-1推动了机器人从单一任务向多任务、从封闭环境到开放世界、从预定义程序到指令泛化的转变,为机器人在制造、服务和家庭等领域的广泛应用奠定了基础。

GO-1:智元机器人团队开发的通用具身基座大模型

GO-1主要功能

  1. 从人类视频中学习:GO-1能够通过互联网视频和真实人类演示学习人类行为,增强对复杂动作的理解,从而更好地模拟和执行任务。
  2. 少样本泛化能力:GO-1具备强大的泛化能力,能够在仅有少量数据的情况下快速适应新场景和任务,甚至在零样本场景中也能表现出色,大大降低了后训练成本。
  3. 跨体化适应性:作为通用机器人策略模型,GO-1可以在不同类型的机器人之间进行迁移,并快速适应各种不同的硬件平台和任务需求。
  4. 持续自我进化:GO-1能够从实际执行过程中遇到的问题中学习,并通过AgiBot的完整数据反馈系统不断优化自身性能,实现持续进化。
  5. 多任务执行能力:GO-1能够执行多种任务,无需为每个新任务重新训练,显著提升了机器人在动态环境中的适应性和效率。

GO-1技术原理

  1. Vision-Language-Latent-Action(ViLLA)框架
    • 结合视觉语言模型(VLM)和专家混合(MoE)架构,通过预测潜在动作标记(Latent Action Tokens)来桥接图像-文本输入与机器人动作之间的差距。
    • VLM利用大规模互联网多模态数据,提供场景理解与指令解析能力。
  2. Latent Planner(潜在规划器)
    • 基于VLM的中间输出预测潜在动作标记,形成通用动作理解与规划的“规划链”(Chain of Planning, CoP)。
    • 使用时空Transformer编码器和空间Transformer解码器,通过VQ-VAE对潜在动作标记进行量化。
  3. Action Expert(动作专家)
    • 利用扩散目标(diffusion objective)对低级动作的连续分布进行建模,实现高频、灵活的操作。
    • 通过去噪过程迭代回归动作序列,确保与VLM和潜在规划器的信息流一致性和协同优化。
  4. 大规模数据驱动
    • 基于AgiBot World数据集,包含超过100万条轨迹,涵盖217个任务,覆盖五个应用领域。
    • 结合互联网规模的异构视频数据,提升模型的泛化能力和适应性。
  5. 协同优化与反馈机制
    • VLM、潜在规划器和动作专家在推理过程中协同工作,确保从场景理解到动作执行的流畅性和一致性。
    • 通过实际执行中的反馈数据,实现模型的持续优化和自我进化。

GO-1应用场景

  1. 制造业:执行复杂装配任务,快速适应不同生产线和产品型号,提高生产效率和质量。
  2. 物流仓储:搬运货物、分拣包裹,灵活应对不同尺寸和重量的物品,优化物流流程。
  3. 餐饮服务:完成点餐、送餐、清洁桌面等工作,提升服务效率,改善顾客体验。
  4. 家庭服务:协助家务劳动,如打扫房间、整理物品、照顾老人或儿童,成为家庭助手。
  5. 医疗护理:辅助医护人员进行病房巡视、药品分发、康复训练等,减轻工作负担。
  6. 零售店铺:补货上架、顾客引导、商品陈列,提升店铺运营效率和顾客满意度。

GO-1项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...