Helix：Figure推出的通用视觉-语言-动作模型

0 60

Helix简介

Helix是由Figure推出的视觉-语言-行动（Vision-Language-Action, VLA）模型，旨在实现通用人形机器人的全身控制。该模型通过结合视觉感知、语言理解和实时控制，突破了传统机器人技术的限制。Helix能够输出高频率的连续控制信号，实现从手腕到手指的全身协调动作。它还支持多机器人协作，使机器人能够通过自然语言指令完成复杂任务，甚至操作从未见过的物品。此外，Helix采用单一神经网络架构，无需针对特定任务进行微调，大大提高了模型的泛化能力和商业部署的可行性。Figure团队通过这一开创性技术，为未来机器人在家庭和复杂环境中的广泛应用奠定了坚实基础。

Helix主要功能

全身控制：Helix是首个能够输出高频率连续控制信号，控制整个人形机器人上半身（包括手腕、躯干、头部和手指）的VLA模型。
多机器人协作：Helix能够同时在两个机器人上运行，使它们能够协作完成从未见过的物品的长时操作任务。
“拿起任何东西”：配备Helix的机器人可以通过自然语言指令拿起几乎任何小型家用物品，即使这些物品从未在训练中出现过。
单一神经网络：Helix使用单一的神经网络权重来学习所有行为，无需针对特定任务进行微调。
商业就绪：Helix是首个完全在低功耗嵌入式GPU上运行的VLA模型，适合商业部署。

Helix技术原理

双系统架构：
- 系统2（S2）：一个预训练的视觉语言模型（VLM），以7-9Hz的频率运行，用于场景理解和语言理解，能够广泛泛化到不同的物体和上下文。
- 系统1（S1）：一个快速反应的视觉运动策略，以200Hz的频率运行，将S2产生的语义表示转化为精确的连续机器人动作。
数据收集与训练：
- 收集了约500小时的多机器人、多操作员的遥操作行为数据。
- 使用自动标注的VLM生成自然语言条件的训练对，通过处理机器人摄像头的分段视频剪辑，生成后见指令。
架构设计：
- S2基于一个7B参数的开源VLM，处理单目机器人图像和机器人状态信息，并将其投射到视觉语言嵌入空间。
- S1是一个80M参数的交叉注意力编码-解码变压器，处理低级控制，依赖于一个完全卷积的多尺度视觉骨干网络进行视觉处理。
训练方法：
- Helix端到端训练，从原始像素和文本命令映射到连续动作，使用标准回归损失。
- 在训练过程中，在S1和S2输入之间添加时间偏移，以匹配部署时的推理延迟。
优化的流式推理：
- Helix的训练设计使其能够在Figure机器人上高效并行部署，每个机器人配备双低功耗嵌入式GPU。
- S2作为异步后台进程运行，S1作为独立的实时进程运行，确保200Hz的控制循环。