OmniCam：浙江大学等推出的多模态视频生成框架

0 100

OmniCam简介

OmniCam是由浙江大学、上海交通大学、北京工业大学、江南大学、中国科学技术大学和南京大学联合开发的统一多模态视频生成框架。该框架通过相机控制实现高质量视频序列的生成，能够接收多种模态的内容参考（如图像或视频）和轨迹指导（如文本描述或视频中的相机运动），并生成与用户指定输入一致的视频。开发团队还提出了OmniTr数据集，这是一个包含大量高质量长序列轨迹、视频和对应描述的多模态相机控制数据集，用于支持OmniCam的训练。OmniCam在高质量相机控制视频生成方面达到了最先进的性能，展现了强大的鲁棒性和准确性。

OmniCam主要功能

多模态输入支持
- 内容参考：支持图像或视频作为内容参考，用户可以根据需要选择合适的输入形式。
- 轨迹指导：支持文本描述或视频中的相机运动作为轨迹指导，提供灵活的输入方式。
精确的相机轨迹控制
- 帧级控制：支持帧级的精确控制，用户可以指定操作的起始帧和结束帧。
- 复合运动支持：支持任意方向的复合运动，包括平移、旋转和缩放等。
- 速度控制：支持速度控制，用户可以指定相机运动的速度。
- 长序列操作：支持多个操作的无缝连接，实现长序列的连续操作。
高质量视频生成
- 3D重建与扩散模型结合：通过单目重建初始化视频，然后使用扩散模型修复视频中的未知区域，确保生成视频的高质量。
- 强化学习优化：通过强化学习对模型进行优化，提升生成视频的准确性和自然度。

OmniCam技术原理

轨迹生成
- 文本到离散运动表示：使用大型语言模型（LLM）将文本描述转换为离散运动表示，包括起始时间、结束时间、速度、方向和旋转等信息。
- 视频到离散运动表示：从输入视频中提取相机轨迹，并将其转换为离散运动表示，支持低帧率视频的轨迹提取。
- 轨迹规划算法：根据离散运动表示，计算每个时间点的相机姿态，生成连续的轨迹序列。
视频合成
- 3D重建：通过单目重建技术获取视频的基本内容信息，包括点云和相机内参。
- 扩散模型：使用扩散模型修复点云渲染结果中的未知区域，生成完整的视频帧。
- 强化学习优化：通过强化学习对轨迹生成模块和视频合成模块进行联合优化，提升整体性能。
数据集支持
- OmniTr数据集：包含大量高质量的长序列轨迹、视频和对应描述，支持多种模态的输入，为模型训练提供了丰富的数据资源。