ExVideo：阿里和华东师大推出的通过参数高效后调整扩展视频扩散模型

0 100

ExVideo项目简介

ExVideo是由华东师范大学和阿里巴巴集团的开发团队共同提出的一种创新的视频合成模型后调优方法。该技术通过参数高效的后调优策略，显著提升了现有视频合成模型生成长视频的能力，同时保持了较低的训练成本。ExVideo通过针对3D卷积、时间注意力和位置嵌入等时间模块的扩展，成功增强了模型处理长时间跨度内容的能力，使其能够生成比原始模型多5倍帧数的视频，而训练时间仅需1.5k GPU小时。这一突破性进展为视频合成领域带来了新的视角和可能性。

ExVideo主要功能

❶扩展视频长度：ExVideo能够使视频合成模型生成比原始模型更长的视频，提升至原始帧数的5倍。
❷保持生成质量：在扩展视频长度的同时，ExVideo保持了视频的高视觉质量和连贯性。
❸参数高效：通过后调优方法，ExVideo在不显著增加模型参数的情况下实现性能提升。
❹多样化风格和分辨率：ExVideo生成的视频支持多种风格和分辨率，增加了模型的通用性和适用性。
❺与现有模型兼容：ExVideo设计为与大多数现有的视频合成模型兼容。

ExVideo技术原理

❶3D卷积层：ExVideo保留了3D卷积层，利用其自适应不同尺度的能力，无需微调即可适应视频合成。
❷时间注意力模块：通过微调时间注意力层的参数，ExVideo增强了模型处理长时间序列的能力。
❸可训练的位置嵌入：ExVideo使用可训练的参数替代原有的位置嵌入，以适应更长的视频。
❹自适应3D卷积层：在位置嵌入层后添加自适应的3D卷积层，以学习长期视频特征，初始化为单位矩阵以保持预训练模型的原始表示。
❺后调优策略：通过在公共数据集上进行扩展训练，ExVideo通过一系列工程优化，如参数冻结、混合精度训练、梯度检查点等，提高了训练效率。
❻计算效率优化：集成了Flash Attention等技术，以提高注意力机制的计算效率，并使用DeepSpeed等工具❼来跨多个GPU分片优化器状态和梯度。

ExVideo应用场景

❶影视制作：用于生成特效或动画视频，降低制作成本。
❷虚拟现实：创造沉浸式视频内容，提升用户体验。
❸社交媒体：用户生成个性化、风格化的视频内容。
❹广告行业：设计吸引人的视频广告，提高广告效果。
❺游戏开发：生成游戏内动画和过场动画。
❻教育和培训：制作教学视频，提高学习材料的吸引力。
❼数据可视化：将复杂数据转化为直观视频格式。