SkyReels-A2:昆仑万维推出的可控视频生成框架

SkyReels-A2简介

SkyReels-A2是由昆仑万维推出的可控视频生成框架,它能够将任意视觉元素(如角色、物体、背景)组合成合成视频,同时基于文本提示生成视频,并严格保持与每个元素的参考图像的一致性。这项任务被称为元素到视频(Elements-to-Video, E2V)任务,其主要挑战在于保持每个参考元素的保真度、确保场景的连贯组合以及实现自然的输出。SkyReels-A2通过设计一个全面的数据管道来构建提示-参考-视频三元组用于模型训练,并提出了一个新颖的图像-文本联合嵌入模型,以平衡元素特定的一致性与全局连贯性和文本对齐。此外,该框架还引入了一个精心策划的基准测试A2-Bench用于系统评估。SkyReels-A2是首个开源的商业级E2V生成模型,性能优于先进的闭源商业模型,其代码和模型权重已在GitHub上公开。

SkyReels-A2:昆仑万维推出的可控视频生成框架

SkyReels-A2主要功能

  1. 元素到视频(E2V)生成:能够将任意视觉元素(如角色、物体、背景)组合成合成视频,同时基于文本提示生成视频,并严格保持与每个元素的参考图像的一致性。
  2. 高保真度的元素一致性:在生成视频时,能够保持角色、物体和背景等视觉元素与参考图像的高度一致性,确保生成内容的准确性和可信度。
  3. 灵活的文本控制:用户可以通过文本提示精确控制视频的内容和风格,实现高度定制化的视频生成。
  4. 高质量视频输出:生成的视频具有高分辨率、自然的运动和流畅的过渡,适合多种应用场景。
  5. 多样化的内容创作:支持多种视觉元素的组合,能够生成多样化的视频内容,满足不同用户的需求。
  6. 系统评估与基准测试:引入了A2-Bench基准测试,用于系统评估E2V任务的性能,确保模型的稳定性和可靠性。

SkyReels-A2技术原理

  1. 图像-文本联合嵌入模型
    • 提出了一种新颖的图像-文本联合嵌入模型,通过语义和空间方式将多元素表示注入生成过程,平衡元素特定的一致性与全局连贯性和文本对齐。
    • 使用CLIP图像编码器提取语义特征,并通过MLP投影将这些特征与视频序列查询对齐。
    • 使用3D VAE提取空间特征,并将这些特征与噪声潜码在通道维度上拼接,以增强生成过程中的空间信息。
  2. 数据管道设计
    • 构建了一个包含文本、参考图像和视频的三元组数据结构,参考图像从多个视频中采样和选择,避免生成视频简单地复制粘贴图像。
    • 通过多专家视频字幕模型生成结构化字幕,描述视频中的角色、物体和背景信息,确保生成内容的详细性和准确性。
  3. 视频扩散Transformer架构
    • 基于先进的视频扩散Transformer架构,通过全3D注意力机制捕捉视频的动态特性,确保生成视频的高质量和连贯性。
    • 在扩散过程中,通过交叉注意力层将语义特征和空间特征融入到生成过程中,增强模型对多元素的控制能力。
  4. 训练和推理优化
    • 采用最小化扩散过程中的MSE损失进行训练,优化模型的生成能力。
    • 在推理阶段,采用UniPC多步调度策略和多种并行化策略加速模型推理,同时通过模型量化和参数级卸载策略减少GPU内存消耗,提高模型的实用性。
  5. 基准测试A2-Bench
    • 提出了一个全面评估E2V任务的基准测试A2-Bench,包含150个参考图像,涵盖不同场景、人物、物体和背景。
    • 通过自动指标和用户研究对生成视频进行多维度评估,确保模型在不同场景下的稳定性和可靠性。

SkyReels-A2应用场景

  1. 虚拟电商:根据产品图片和描述生成动态视频广告,提升商品展示效果,增强用户购买意愿。
  2. 音乐视频创作:结合乐器、场景和音乐节奏生成创意音乐视频,为音乐创作增添视觉元素。
  3. 影视制作:快速生成符合剧本要求的视频片段,辅助导演和编剧进行创意构思和前期制作。
  4. 虚拟角色生成:创建具有特定外观和动作的虚拟角色,用于游戏、动画或虚拟直播。
  5. 教育视频制作:根据教学内容生成生动的视频素材,提高教学效果和学生的学习兴趣。
  6. 社交媒体内容创作:为用户生成个性化的视频内容,满足社交媒体平台的多样化需求,提升内容吸引力。

SkyReels-A2项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...