GO-1：智元机器人团队开发的通用具身基座大模型

0 90

GO-1简介

智元机器人最新推出了Genie Operator-1（GO-1），这是一款创新的通用体化基础模型。GO-1基于Vision-Language-Latent-Action（ViLLA）框架，融合了视觉语言模型（VLM）和专家混合（MoE）架构。它通过大规模互联网异构数据构建场景理解基础，并利用超过百万的真实机器人演示数据实现高频、灵活的操作能力。GO-1具备从人类视频中学习、少样本泛化、跨体化适应以及持续自我进化等独特能力。它在多种复杂任务中表现出色，相比现有模型成功率达78%，显著提升32%。AgiBot团队通过GO-1推动了机器人从单一任务向多任务、从封闭环境到开放世界、从预定义程序到指令泛化的转变，为机器人在制造、服务和家庭等领域的广泛应用奠定了基础。

GO-1主要功能

从人类视频中学习：GO-1能够通过互联网视频和真实人类演示学习人类行为，增强对复杂动作的理解，从而更好地模拟和执行任务。
少样本泛化能力：GO-1具备强大的泛化能力，能够在仅有少量数据的情况下快速适应新场景和任务，甚至在零样本场景中也能表现出色，大大降低了后训练成本。
跨体化适应性：作为通用机器人策略模型，GO-1可以在不同类型的机器人之间进行迁移，并快速适应各种不同的硬件平台和任务需求。
持续自我进化：GO-1能够从实际执行过程中遇到的问题中学习，并通过AgiBot的完整数据反馈系统不断优化自身性能，实现持续进化。
多任务执行能力：GO-1能够执行多种任务，无需为每个新任务重新训练，显著提升了机器人在动态环境中的适应性和效率。

GO-1技术原理

Vision-Language-Latent-Action（ViLLA）框架
- 结合视觉语言模型（VLM）和专家混合（MoE）架构，通过预测潜在动作标记（Latent Action Tokens）来桥接图像-文本输入与机器人动作之间的差距。
- VLM利用大规模互联网多模态数据，提供场景理解与指令解析能力。
Latent Planner（潜在规划器）
- 基于VLM的中间输出预测潜在动作标记，形成通用动作理解与规划的“规划链”（Chain of Planning, CoP）。
- 使用时空Transformer编码器和空间Transformer解码器，通过VQ-VAE对潜在动作标记进行量化。
Action Expert（动作专家）
- 利用扩散目标（diffusion objective）对低级动作的连续分布进行建模，实现高频、灵活的操作。
- 通过去噪过程迭代回归动作序列，确保与VLM和潜在规划器的信息流一致性和协同优化。
大规模数据驱动
- 基于AgiBot World数据集，包含超过100万条轨迹，涵盖217个任务，覆盖五个应用领域。
- 结合互联网规模的异构视频数据，提升模型的泛化能力和适应性。
协同优化与反馈机制
- VLM、潜在规划器和动作专家在推理过程中协同工作，确保从场景理解到动作执行的流畅性和一致性。
- 通过实际执行中的反馈数据，实现模型的持续优化和自我进化。