I2V3D：将静态图像转化为具有精确 3D 控制的动态视频

0 20

I2V3D简介

I2V3D 是由香港城市大学和微软通用人工智能项目团队共同开发的一种创新框架，旨在将静态图像转化为具有精确 3D 控制的动态视频。该技术结合了计算机图形学的精确性与生成式人工智能的视觉保真度，通过 3D 几何引导和先进的生成模型，实现了高质量、可控的视频生成。开发团队通过两阶段生成流程——3D 引导的关键帧生成和视频插值，解决了现有方法在精确控制和真实感渲染方面的不足。I2V3D 不仅降低了传统 CG 动画的专业门槛，还显著提升了创作效率，为用户提供了从单张图像定制动画的灵活工具。

I2V3D主要功能

从静态图像生成动态视频：将单张输入图像转化为具有精确 3D 控制的高质量动态视频，支持复杂的动画效果。
精确的 3D 控制：通过 3D 几何引导，实现对物体运动、相机移动和角色动画的精细控制，支持复杂动作（如物体旋转、相机环绕等）。
灵活的动画起点和序列扩展：用户可以定义动画的任意起始点，而不局限于输入图像作为第一帧，同时支持生成超出传统视频扩散模型时间窗口的长序列动画。
高质量视频生成：结合生成式 AI 的视觉保真度，生成具有真实感的视频内容，同时保持时间和空间一致性。
降低专业门槛：自动化建模和渲染流程，使用户无需专业 CG 技术即可通过简单操作生成高质量动画。

I2V3D技术原理

3D 重建与渲染：
- 从输入图像中提取前景和背景的 3D 网格，通过多视角生成和立体重建技术扩展场景。
- 使用 Blender 等 3D 引擎进行动画设计和渲染，生成包含 RGB 帧和深度图的粗略视频，为后续生成提供 3D 引导。
3D 引导的关键帧生成：
- 定制图像扩散模型，通过多视图增强训练，提升对前景物体不同角度的泛化能力。
- 结合深度图和渲染特征作为控制信号，确保生成的关键帧与 3D 几何一致。
- 使用扩展注意力机制增强关键帧之间的时间一致性。
3D 引导的视频插值：
- 采用无训练的双向插值方法，在关键帧之间生成平滑、高质量的视频帧。
- 结合深度控制和渲染特征控制，确保插值视频与粗略渲染视频的几何对齐。
两阶段生成流程：第一阶段生成高质量的关键帧，第二阶段通过插值生成中间帧，避免时间误差累积，支持长序列视频生成。
结合传统 CG 和生成模型：利用传统 CG 的精确控制能力和生成模型的真实感生成能力，弥补了传统方法在精确性和真实感之间的不足。