Helix:Figure推出的通用视觉-语言-动作模型
Helix简介
Helix是由Figure推出的视觉-语言-行动(Vision-Language-Action, VLA)模型,旨在实现通用人形机器人的全身控制。该模型通过结合视觉感知、语言理解和实时控制,突破了传统机器人技术的限制。Helix能够输出高频率的连续控制信号,实现从手腕到手指的全身协调动作。它还支持多机器人协作,使机器人能够通过自然语言指令完成复杂任务,甚至操作从未见过的物品。此外,Helix采用单一神经网络架构,无需针对特定任务进行微调,大大提高了模型的泛化能力和商业部署的可行性。Figure团队通过这一开创性技术,为未来机器人在家庭和复杂环境中的广泛应用奠定了坚实基础。

Helix主要功能
-
全身控制:Helix是首个能够输出高频率连续控制信号,控制整个人形机器人上半身(包括手腕、躯干、头部和手指)的VLA模型。
-
多机器人协作:Helix能够同时在两个机器人上运行,使它们能够协作完成从未见过的物品的长时操作任务。
-
“拿起任何东西”:配备Helix的机器人可以通过自然语言指令拿起几乎任何小型家用物品,即使这些物品从未在训练中出现过。
-
单一神经网络:Helix使用单一的神经网络权重来学习所有行为,无需针对特定任务进行微调。
-
商业就绪:Helix是首个完全在低功耗嵌入式GPU上运行的VLA模型,适合商业部署。
Helix技术原理
-
双系统架构:
-
系统2(S2):一个预训练的视觉语言模型(VLM),以7-9Hz的频率运行,用于场景理解和语言理解,能够广泛泛化到不同的物体和上下文。
-
系统1(S1):一个快速反应的视觉运动策略,以200Hz的频率运行,将S2产生的语义表示转化为精确的连续机器人动作。
-
-
数据收集与训练:
-
收集了约500小时的多机器人、多操作员的遥操作行为数据。
-
使用自动标注的VLM生成自然语言条件的训练对,通过处理机器人摄像头的分段视频剪辑,生成后见指令。
-
-
架构设计:
-
S2基于一个7B参数的开源VLM,处理单目机器人图像和机器人状态信息,并将其投射到视觉语言嵌入空间。
-
S1是一个80M参数的交叉注意力编码-解码变压器,处理低级控制,依赖于一个完全卷积的多尺度视觉骨干网络进行视觉处理。
-
-
训练方法:
-
Helix端到端训练,从原始像素和文本命令映射到连续动作,使用标准回归损失。
-
在训练过程中,在S1和S2输入之间添加时间偏移,以匹配部署时的推理延迟。
-
-
优化的流式推理:
-
Helix的训练设计使其能够在Figure机器人上高效并行部署,每个机器人配备双低功耗嵌入式GPU。
-
S2作为异步后台进程运行,S1作为独立的实时进程运行,确保200Hz的控制循环。
-
Helix应用场景
-
家庭服务:帮助整理家务,如收拾杂物、摆放物品到指定位置,甚至清理桌面。
-
厨房辅助:协助处理食材,如从冰箱取物、放入橱柜或操作厨房电器。
-
物流与仓储:在仓库中分拣、搬运和摆放货物,优化物流效率。
-
零售服务:在商店中整理货架、补货或协助顾客寻找商品。
-
医疗辅助:在医院或康复中心协助患者拿取物品、整理病房,减轻医护人员负担。
-
教育与研究:作为实验助手,协助科研人员进行实验操作或在教育场景中展示机器人技术。
Helix项目入口
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...