ReCamMaster:快手联合浙大等推出的视频重渲染框架

ReCamMaster简介

ReCamMaster是由浙江大学、快手科技、香港中文大学和华中科技大学的研究团队共同开发的一种创新的视频重渲染框架。该框架能够通过改变相机轨迹重新渲染输入视频,生成具有新视角的动态场景。它利用预训练的文本到视频模型,并结合一种高效视频条件机制,实现了高质量的相机控制视频生成。开发团队还构建了一个大规模的多相机同步视频数据集,以提升模型对真实世界视频的泛化能力,并通过精心设计的训练策略进一步优化了模型性能。ReCamMaster在视频稳定、超分辨率和外画等实际应用中展现了巨大潜力,为视频创作带来了新的可能性。

ReCamMaster:快手联合浙大等推出的视频重渲染框架

ReCamMaster主要功能

  1. 相机轨迹控制的视频重渲染:能够根据用户指定的相机轨迹重新渲染输入视频,生成具有新视角的动态场景,同时保持与原始视频的外观一致性和时空同步性。
  2. 高质量视频生成:生成的视频在视觉质量、相机精度和视图同步性方面表现出色,能够生成真实且连贯的动态内容。
  3. 多样化应用支持:支持视频稳定化、超分辨率和外画等实际应用,例如通过调整相机轨迹实现视频的稳定化或局部放大,以及生成超出原始视频范围的内容。
  4. 多任务支持:同时支持文本到视频(T2V)、图像到视频(I2V)和视频到视频(V2V)的相机控制生成任务,具有广泛的适用性。

ReCamMaster技术原理

  1. 基于预训练的文本到视频模型:利用预训练的文本到视频扩散模型作为基础架构,通过3D变分自编码器(3D-VAE)和基于Transformer的扩散模型实现高质量的视频生成。
  2. 创新的视频条件机制:提出“帧维度条件”方法,将源视频和目标视频的token沿着帧维度拼接,使模型能够更好地理解视频对之间的时空关系,从而实现高质量的相机轨迹控制。
  3. 多相机同步数据集:开发了一个大规模的多相机同步视频数据集,包含多样化的场景和相机轨迹,通过模拟真实世界的拍摄特征,帮助模型更好地泛化到真实视频。
  4. 相机姿态条件:通过可学习的相机编码器将目标相机的外参(旋转和平移矩阵)嵌入到视频特征中,使模型能够根据指定的相机轨迹生成对应的视频内容。
  5. 改进的训练策略:采用多种训练策略,包括仅微调3D注意力层、对条件视频潜在表示添加噪声,以及通过随机丢弃源视频的潜在表示来提高生成能力,从而提升模型的鲁棒性和泛化能力。

ReCamMaster应用场景

  1. 视频稳定化:通过调整相机轨迹,平滑抖动的视频内容,提升观看体验。
  2. 视频超分辨率:输入放大轨迹,生成更高分辨率的局部视频内容,增强细节。
  3. 视频外画:通过外推相机轨迹,生成超出原始画面范围的内容,扩展视频视野。
  4. 创意视频制作:为视频创作者提供新的视角和动态效果,增强视频的艺术性和吸引力。
  5. 虚拟现实(VR)和增强现实(AR):生成与用户交互的动态场景,提升沉浸感。
  6. 视频编辑与修复:修复因拍摄角度不佳或设备限制导致的视频问题,提升视频质量。

ReCamMaster项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...