GR00T N1：英伟达开源的人形机器人基础模型

0 80

GR00T N1简介

GR00T N1 是由 NVIDIA 开发团队推出的一款面向人形机器人的开源基础模型。该团队致力于开发能够理解人类世界、遵循语言指令并执行多样化任务的通用人形机器人 AI 解决方案。GR00T N1 基于包含第一人称人类视频、真实和模拟机器人轨迹以及合成数据的多样化数据集进行训练，是一个强大的视觉 – 语言 – 行动（VLA）模型。它在模拟基准测试中超越了现有的先进模仿学习模型，并在家庭任务中展示了有效的语言条件下的双臂操作能力。此外，该模型以开放权重和宽松许可的形式通过 NVIDIA Isaac GR00T 提供给物理 AI 构建者，以助力解决社会的关键问题。

GR00T N1主要功能

理解人类世界：能够感知和理解复杂的现实环境，包括识别物体、场景以及它们之间的关系，从而更好地与人类生活空间进行交互。
遵循语言指令：可以准确地解析和执行人类发出的自然语言指令，完成各种指定的任务，例如“拿起桌子上的杯子”“把书放到书架上”等。
执行多样化任务：具备广泛的任务执行能力，涵盖从简单的物品搬运、清洁整理到复杂的多步骤操作等家庭或服务场景中的任务。
双臂操作能力：在语言条件的引导下，能够进行有效的双臂协同操作，例如双手配合完成拧开瓶盖、组装物品等复杂动作，提升了操作的灵活性和精度。
跨机器人实体通用性：该模型不仅适用于单一类型的机器人，还能在多种不同的人形机器人实体（如 Fourier GR-1 和 1X 人形机器人）上实现良好的性能，具有较强的通用性和适应性。

GR00T N1技术原理

视觉 – 语言 – 行动（VLA）模型架构：将视觉感知、语言理解和行动决策紧密结合，通过多模态数据的融合与协同处理，使机器人能够基于视觉输入理解场景，根据语言指令规划行动，并执行相应的任务。
多样化数据集训练：采用包含第一人称人类视频（提供真实场景和人类行为的视角）、真实机器人轨迹（反映实际操作中的动作模式和效果）、模拟机器人轨迹（通过模拟环境生成大量数据以增强模型的泛化能力）以及合成数据（用于补充特定场景或动作的数据）的丰富数据集进行训练，让模型学习到不同情境下的知识和技能。
强化学习与模仿学习结合：在训练过程中，既利用模仿学习从人类专家的示范数据中学习任务的执行方式，又通过强化学习让模型在与环境的交互中不断优化自己的行为策略，以获得更好的性能和适应性。
模拟与现实结合的训练方法：先在模拟环境中对模型进行大规模训练，利用模拟环境的高效性和可扩展性快速提升模型的性能；然后将模型迁移到真实机器人上进行微调和验证，使其能够适应现实世界的复杂性和不确定性，实现从模拟到现实的有效过渡。
开放权重与可扩展性：以开放权重的形式提供模型，允许其他开发者和研究人员在模型的基础上进行进一步的开发和优化，便于针对特定任务或机器人实体进行定制化改进，促进技术的快速迭代和应用拓展。