Loopy：字节&浙大推出的音频驱动视频生成模型

0 70

Loopy简介

Loopy是由字节跳动公司和浙江大学的研究团队共同开发的一种先进的音频驱动视频生成模型。该模型采用端到端的设计，专注于利用长期运动依赖性来提高音频和肖像视频之间的自然运动关联性。通过精心设计的音频到潜在表示的转换模块，Loopy能够在无需额外空间信号辅助的情况下，生成更加生动和高质量的人物动态视频，展现了在音频驱动肖像合成领域的显著突破。

Loopy主要功能

音频驱动视频生成：利用音频信号生成动态的肖像视频，实现音频与视觉内容的同步。
长期运动依赖性学习：通过分析长期运动信息，学习并生成更加自然和连贯的人物动作。
无需空间模板：不依赖于预设的空间运动模板，提高运动的自然性和表现力。
跨场景适用性：能够在多种不同的场景和条件下稳定生成高质量的视频内容。

Loopy技术原理

音频到潜在表示的模块：通过将音频信号转换为能够指导视频生成的潜在表示，增强音频与视频内容之间的关联。
双时序模块设计：包括跨片段和片段内时序模块，用于捕捉片段间和片段内的时间关系，从而更好地理解运动模式。
时序段模块（Temporal Segment Module）：通过将运动帧分割并提取代表性的运动帧，扩展了模型的时间感受野，使其能够覆盖更长时间段的运动信息。
端到端训练：模型采用端到端的方式进行训练，直接从数据中学习音频与运动之间的复杂关系。
多阶段训练策略：模型训练分为两个阶段，先在没有时序层和音频条件模块的情况下训练，然后在加入这些模块的情况下进行第二阶段训练。
条件掩码和dropout：在训练过程中，为了更好地学习每个条件的独特信息，采用了特定的掩码和dropout策略。
类自由引导（Class-Free Guidance）：在推理过程中，使用多个条件进行类自由引导，以控制最终输出的参考图像一致性和音频对齐度。