TesserAct：哈佛大学等推出的4D体现世界模型

0 100

TesserAct项目简介

TesserAct 是由 UMass Amherst、HKUST 和 Harvard University 的研究团队共同开发的一种创新的 4D 体现世界模型。该模型通过输入图像和文本指令，能够生成 RGB、深度和法线视频，并重建出具有时空一致性的 4D 场景，同时预测相应的动作。TesserAct 在学习三维场景随时间的动态变化方面表现出色，不仅在域内数据上取得了优异的性能，还能有效泛化到未见场景、新对象以及跨域场景。开发团队通过构建高质量的 4D 数据集，并引入新颖的损失函数来优化场景重建，使得 TesserAct 在机器人动作规划等下游任务中展现了强大的应用潜力，为智能体现代理的发展提供了新的基础。

TesserAct主要功能

4D 场景生成与重建：
- 输入图像和文本指令后，TesserAct 能够生成 RGB、深度和法线视频，并将其整合为高质量的 4D 场景。
- 生成的 4D 场景在时间和空间上具有一致性，能够准确反映物体的动态变化和几何信息。
动作预测与规划：
- 基于生成的 4D 场景，TesserAct 可以预测机器人的动作，例如抓取物体、移动物体等。
- 通过逆动力学模型，结合当前状态和预测的未来状态，生成精确的 7 自由度动作指令。
泛化能力：
- TesserAct 能够在未见场景、新对象和跨域场景中有效工作，展现出强大的泛化能力。
- 该模型不仅适用于模拟数据，还能在真实世界数据中表现出色。
多模态输入支持：
- 支持 RGB、深度和法线等多种模态的输入，能够生成更丰富的场景信息。
- 通过文本指令和图像输入，实现对机器人动作的精确控制。

TesserAct技术原理

数据集构建：
- 结合合成数据和真实世界数据，构建了包含 RGB、深度和法线信息的 4D 体现视频数据集。
- 使用深度估计器（如 RollingDepth）和法线估计器（如 Marigold）为真实世界数据补充深度和法线信息。
模型架构：
- 基于 CogVideoX 架构，利用变分自编码器（VAE）分别对 RGB、深度和法线视频进行编码。
- 通过扩散模型（Diffusion Model）进行训练，预测未来的 RGB、深度和法线视频。
4D 场景重建：
- 利用深度和法线信息优化深度图，通过光流（Optical Flow）技术区分静态和动态区域。
- 引入一致性损失（Consistency Loss）和正则化损失（Regularization Loss），确保场景在时间和空间上的连贯性。
动作规划：
- 使用逆动力学模型（Inverse Dynamics Model），结合 4D 点云和文本指令，预测机器人的动作。
- 通过 PointNet 提取点云特征，并结合语言嵌入，生成精确的动作指令。
优化与训练：
- 采用多分辨率训练方法，优化模型的生成能力和泛化能力。
- 使用梯度检查点（Gradient Checkpointing）技术优化内存使用，并通过指数移动平均（EMA）稳定训练过程。