Helix:Figure推出的通用视觉-语言-动作模型

Helix简介

Helix是由Figure推出的视觉-语言-行动(Vision-Language-Action, VLA)模型,旨在实现通用人形机器人的全身控制。该模型通过结合视觉感知、语言理解和实时控制,突破了传统机器人技术的限制。Helix能够输出高频率的连续控制信号,实现从手腕到手指的全身协调动作。它还支持多机器人协作,使机器人能够通过自然语言指令完成复杂任务,甚至操作从未见过的物品。此外,Helix采用单一神经网络架构,无需针对特定任务进行微调,大大提高了模型的泛化能力和商业部署的可行性。Figure团队通过这一开创性技术,为未来机器人在家庭和复杂环境中的广泛应用奠定了坚实基础。

Helix:Figure推出的通用视觉-语言-动作模型

Helix主要功能

  1. 全身控制:Helix是首个能够输出高频率连续控制信号,控制整个人形机器人上半身(包括手腕、躯干、头部和手指)的VLA模型。
  2. 多机器人协作:Helix能够同时在两个机器人上运行,使它们能够协作完成从未见过的物品的长时操作任务。
  3. “拿起任何东西”:配备Helix的机器人可以通过自然语言指令拿起几乎任何小型家用物品,即使这些物品从未在训练中出现过。
  4. 单一神经网络:Helix使用单一的神经网络权重来学习所有行为,无需针对特定任务进行微调。
  5. 商业就绪:Helix是首个完全在低功耗嵌入式GPU上运行的VLA模型,适合商业部署。

Helix技术原理

  1. 双系统架构
    • 系统2(S2):一个预训练的视觉语言模型(VLM),以7-9Hz的频率运行,用于场景理解和语言理解,能够广泛泛化到不同的物体和上下文。
    • 系统1(S1):一个快速反应的视觉运动策略,以200Hz的频率运行,将S2产生的语义表示转化为精确的连续机器人动作。
  2. 数据收集与训练
    • 收集了约500小时的多机器人、多操作员的遥操作行为数据。
    • 使用自动标注的VLM生成自然语言条件的训练对,通过处理机器人摄像头的分段视频剪辑,生成后见指令。
  3. 架构设计
    • S2基于一个7B参数的开源VLM,处理单目机器人图像和机器人状态信息,并将其投射到视觉语言嵌入空间。
    • S1是一个80M参数的交叉注意力编码-解码变压器,处理低级控制,依赖于一个完全卷积的多尺度视觉骨干网络进行视觉处理。
  4. 训练方法
    • Helix端到端训练,从原始像素和文本命令映射到连续动作,使用标准回归损失。
    • 在训练过程中,在S1和S2输入之间添加时间偏移,以匹配部署时的推理延迟。
  5. 优化的流式推理
    • Helix的训练设计使其能够在Figure机器人上高效并行部署,每个机器人配备双低功耗嵌入式GPU。
    • S2作为异步后台进程运行,S1作为独立的实时进程运行,确保200Hz的控制循环。

Helix应用场景

  1. 家庭服务:帮助整理家务,如收拾杂物、摆放物品到指定位置,甚至清理桌面。
  2. 厨房辅助:协助处理食材,如从冰箱取物、放入橱柜或操作厨房电器。
  3. 物流与仓储:在仓库中分拣、搬运和摆放货物,优化物流效率。
  4. 零售服务:在商店中整理货架、补货或协助顾客寻找商品。
  5. 医疗辅助:在医院或康复中心协助患者拿取物品、整理病房,减轻医护人员负担。
  6. 教育与研究:作为实验助手,协助科研人员进行实验操作或在教育场景中展示机器人技术。

Helix项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...