Snap Video：社媒Snap开发的一种先进的文本到视频合成模型

0 40

Snap Video项目介绍

Snap Video 是由 Snap的研究团队开发的一种先进的文本到视频合成模型，它通过创新的变换器架构和联合时空视频建模技术，能够根据文本提示高效地生成具有高度时间一致性和复杂运动的视频内容。这项工作不仅推动了视频生成技术的发展，而且其在多个基准测试中取得的突破性成果，展示了 Snap Inc. 在人工智能领域的研究实力和对未来媒体创作的深远影响。

Snap Video主要功能

❶文本到视频合成：用户可以提供文本提示，Snap Video 能够根据这些提示生成视频内容。
❷高保真度和可扩展性：通过其架构设计，Snap Video 生成的视频具有更高的运动保真度、视觉质量和可扩展性。
❸时间一致性和复杂运动建模：能够生成具有复杂运动和时间一致性的视频，这对于视频内容的逼真度至关重要。
❹大规模参数训练：Snap Video 能够训练具有数十亿参数的模型，这在以前的文本到视频模型中是首次实现。
❺基准测试和用户研究：在多个基准测试中达到了最先进的结果，并且在用户研究中得到了偏好。
❻高分辨率视频生成：采用两阶段级联模型，首先生成低分辨率视频，然后通过第二阶段模型进行高分辨率上采样。

Snap Video应用场景

❶娱乐和社交媒体：用户可以利用 Snap Video 将他们的创意想法或故事转换成视频，用于个人娱乐或在社交媒体平台上分享。
❷广告和营销：企业可以使用该模型快速生成宣传视频，通过将产品描述转换成吸引人的视频内容来吸引潜在客户。
❸教育和培训：在教育领域，Snap Video 可以用来创建教育视频，将复杂的理论或过程转换成视觉化的视频，帮助学生更好地理解和记忆。
❹电影和动画预览：电影制作人员可以利用该技术快速生成电影场景的初步预览，以便在前期制作中评估场景的可行性和效果。
❺游戏和虚拟现实：在游戏设计或虚拟现实体验中，Snap Video 可以用来生成动态背景或故事情节，增强用户的沉浸感。
❻新闻和报道：新闻机构可以利用该技术快速生成新闻故事的视频摘要，提高报道的吸引力和效率。

Snap Video技术原理

❶视频生成模型的挑战：视频内容包含高度冗余，直接将图像生成模型应用于视频会降低运动保真度和视觉质量，影响模型的可扩展性。
❷扩展EDM框架：Snap Video 扩展了 Efficient Data Manipulation (EDM) 框架，以考虑空间和时间上冗余的像素，支持视频生成。
❸U-Net架构的局限性：U-Net在图像生成中表现出色，但在视频生成中需要处理每个视频帧，导致计算开销大，且对空间和时间维度的支持需要体积注意力操作，计算需求高。
❹变换器架构：提出了一种基于变换器的架构，该架构训练速度快于U-Net，推理速度快约4.5倍，允许高效训练具有数十亿参数的文本到视频模型。
❺压缩表示：利用帧之间的冗余信息，将空间和时间维度视为单一的、压缩的1D潜在向量，允许联合执行时空计算，并使复杂运动的建模成为可能。
❻FIT架构：Snap Video 的架构受到 Far-reaching Interleaved Transformers (FIT) 的启发，这些架构通过学习输入的压缩表示并在此压缩空间上进行计算，允许输入维度的增长而不会显著影响性能。
❼训练和推理：使用LAMB优化器和余弦学习率调度程序进行训练，采用分类器自由引导和动态阈值技术来提高文本视频对齐。