MarDini：Meta AI 和 KAUST 联合推出的视频扩散模型

0 40

MarDini 简介

MarDini 是 Meta AI 和 KAUST 联合推出的一种新型视频扩散模型，它融合了掩码自回归（MAR）和扩散模型（DM）的优势，用于大规模视频生成。该模型通过一个参数丰富的MAR规划模型处理时间规划，同时利用一个轻量级DM模型专注于空间生成，实现了从视频插值到图像动画的多样化视频生成任务。MarDini以其灵活性、可扩展性和效率为特点，能够在较低计算成本下生成高质量视频，为视频生成领域带来了新的突破。

MarDini 主要功能

视频插值：在两个给定帧之间生成中间帧，增强视频的流畅性和连贯性。
图像到视频生成：从单张图片出发，生成连续的视频内容，扩展图像的动态表现。
视频扩展：在视频序列中添加新的帧，以扩展视频的长度和内容。
慢动作视频生成：通过分层自回归生成，将短视频扩展成长视频，实现慢动作效果。

MarDini 技术原理

掩码自回归（MAR）：
- 利用双向注意力机制处理视觉数据，模拟自回归行为，有效处理高维视觉信息。
- 在低分辨率输入上操作，生成规划信号，为视频生成提供时间上的指导。
扩散模型（DM）：
- 直接在连续空间中对视觉信号进行建模，提供稳定的训练过程。
- 通过多步扩散过程，从噪声中逐步恢复出高分辨率的视频帧。
不对称网络设计：
- MAR模型包含大部分参数，处理低分辨率输入，而DM模型轻量级，处理高分辨率输出。
- 通过这种方式，将计算资源主要集中在低分辨率的规划模型上，使得大规模的时空注意力机制成为可能。
渐进式训练策略：
- 从简单的视频插值任务开始，逐步增加任务的复杂性，最终实现完整的视频生成。
- 通过调整掩码比例和训练数据的配置，逐步提升模型的难度和性能。
端到端训练：
- 通过掩码帧级别的扩散损失进行端到端训练，整合MAR的规划信号和DM的生成能力。
身份注意力机制（Identity Attention）：
- 在DM中区分参考帧和噪声帧，通过不同的注意力策略提高训练稳定性。
变分自编码器（VAE）：
- 使用预训练的VAE将视频压缩到低维连续潜在空间，提高训练和推理效率。