KeySync：能够生成与输入音频紧密对齐的高分辨率视频

0 70

KeySync项目简介

KeySync是由帝国理工学院（Imperial College London）和弗罗茨瓦夫大学（University of Wrocław）的研究团队共同开发的一种先进的唇部同步框架。该技术旨在解决现有方法中存在的时间一致性问题、表情泄漏以及面部遮挡处理不足等挑战。KeySync采用两阶段方法，通过精心设计的掩码策略和遮挡处理技术，生成与输入音频紧密对齐且无表情泄漏的高分辨率唇部动画。该框架在多个数据集上表现出色，尤其在跨同步设置中展现了卓越的性能，为自动化配音等实际应用提供了有力支持。

KeySync主要功能

高分辨率唇部同步：
- KeySync能够生成与输入音频紧密对齐的高分辨率（512×512）视频，显著优于传统方法的256×256分辨率。
- 在跨同步场景（输入音频与视频不匹配）中表现出色，适用于自动化配音等实际应用。
减少表情泄漏：
- 通过创新的掩码策略，KeySync能够有效减少输入视频中的表情泄漏，确保生成视频的唇部动作仅由输入音频驱动。
鲁棒的遮挡处理：
- KeySync在推理阶段自动检测并排除面部遮挡（如手部遮挡、物体遮挡等），避免生成不自然的唇部动作。
时间一致性：
- 采用两阶段生成方法（关键帧生成与插值），确保生成视频的唇部动作平滑过渡，避免帧间不连续性。

KeySync技术原理

两阶段视频生成：
- 关键帧生成：首先生成稀疏的关键帧，捕捉音频序列中的主要唇部动作，确保每个关键帧准确反映音频的音素内容。
- 插值：在关键帧之间进行插值，生成平滑的时间连贯动画，避免帧间不连续性。
泄漏证明掩码（Leakage-proof Masking）：
- 通过计算面部标志创建掩码，覆盖下脸区域，同时保留必要的上下文信息，避免表情泄漏。
- 掩码设计平衡了上下文保留和表情泄漏的矛盾，优于仅遮挡嘴巴或整个下半脸的方法。
遮挡处理：
- 使用预训练的视频分割模型（如SAM²）在推理时自动检测并排除遮挡物体。
- 排除遮挡后，模型能够正确重建唇部区域，避免因遮挡导致的不自然边界。
音频驱动与同步：
- 使用HuBERT音频编码器将输入音频转换为特征嵌入，通过注意力机制与视频生成模型结合，确保唇部动作与音频紧密对齐。
损失函数设计：
- 结合潜空间的损失和RGB空间的L2损失，保留细节并提高视频质量。
- 通过掩码确保仅对生成区域计算损失，避免不必要的误差传播。