Video Prediction Policy：基于视频扩散模型的通用机器人策略

0 60

Video Prediction Policy简介

Video Prediction Policy (VPP) 是由清华大学工业智能与系统研究所（IIIS）和加州大学伯克利分校联合开发的一种先进的机器人策略，它通过利用视频扩散模型中的预测性视觉表示来执行多种任务。VPP策略结合了模拟和真实世界的基准测试，展示了其在提高机器人执行复杂任务成功率方面的显著优势，特别是在灵巧手操纵任务中。该策略不仅提高了机器人对物理世界动态的理解，还通过互联网规模的视频数据集和机器人特定数据集，实现了从大规模互联网数据到特定机器人系统的知识转移。

Video Prediction Policy：基于视频扩散模型的通用机器人策略

Video Prediction Policy主要功能

多任务执行： VPP能够执行多种不同的机器人任务，如抓取、放置、堆叠等。
预测性视觉表示： 利用视频扩散模型（VDMs）来捕捉当前和预测未来的信息，为机器人提供关于物理世界动态的深入理解。
模拟与真实世界应用： 在模拟环境和真实世界的机器人平台上均进行了测试和应用，显示出良好的适应性和泛化能力。
性能提升： 与现有技术相比，VPP在多个基准测试中显示出了更高的成功率和任务完成率。
知识转移： 能够将从大规模互联网视频数据集学到的知识转移到特定的机器人系统上。

Video Prediction Policy技术原理

视频扩散模型（VDMs）： VPP基于视频扩散模型，这些模型能够生成连续的图像序列，并展示出对物理世界的强大理解能力。
两阶段学习过程：
- 第一阶段： 微调预训练的视频扩散模型，使用多种操纵数据集来增强模型在操纵领域的预测能力。
- 第二阶段： 开发一个基于预测视觉表示的多任务通用机器人策略，用于输出最终的机器人动作。
文本引导的视频预测（TVP）模型： 通过结合语言指令和图像信息，TVP模型能够控制视频生成过程，使其更适应特定的任务和环境。
视频形成器（Video Former）： 用于整合跨空间、时间和多视图维度的预测表示，将高维的预测表示压缩成固定数量的标记。
扩散策略（Diffusion Policy）： 作为动作头，用于基于聚合的表示生成动作序列，通过学习去噪过程来近似噪声并最小化损失函数。
跨数据集训练： 通过结合互联网视频数据集和机器人特定数据集，VPP能够学习并迁移物理知识，以提高在特定任务中的性能。