KeySync:能够生成与输入音频紧密对齐的高分辨率视频

KeySync项目简介

KeySync是由帝国理工学院(Imperial College London)和弗罗茨瓦夫大学(University of Wrocław)的研究团队共同开发的一种先进的唇部同步框架。该技术旨在解决现有方法中存在的时间一致性问题、表情泄漏以及面部遮挡处理不足等挑战。KeySync采用两阶段方法,通过精心设计的掩码策略和遮挡处理技术,生成与输入音频紧密对齐且无表情泄漏的高分辨率唇部动画。该框架在多个数据集上表现出色,尤其在跨同步设置中展现了卓越的性能,为自动化配音等实际应用提供了有力支持。

KeySync:能够生成与输入音频紧密对齐的高分辨率视频

KeySync主要功能

  1. 高分辨率唇部同步
    • KeySync能够生成与输入音频紧密对齐的高分辨率(512×512)视频,显著优于传统方法的256×256分辨率。
    • 在跨同步场景(输入音频与视频不匹配)中表现出色,适用于自动化配音等实际应用。
  2. 减少表情泄漏
    • 通过创新的掩码策略,KeySync能够有效减少输入视频中的表情泄漏,确保生成视频的唇部动作仅由输入音频驱动。
  3. 鲁棒的遮挡处理
    • KeySync在推理阶段自动检测并排除面部遮挡(如手部遮挡、物体遮挡等),避免生成不自然的唇部动作。
  4. 时间一致性
    • 采用两阶段生成方法(关键帧生成与插值),确保生成视频的唇部动作平滑过渡,避免帧间不连续性。

KeySync技术原理

  1. 两阶段视频生成
    • 关键帧生成:首先生成稀疏的关键帧,捕捉音频序列中的主要唇部动作,确保每个关键帧准确反映音频的音素内容。
    • 插值:在关键帧之间进行插值,生成平滑的时间连贯动画,避免帧间不连续性。
  2. 泄漏证明掩码(Leakage-proof Masking)
    • 通过计算面部标志创建掩码,覆盖下脸区域,同时保留必要的上下文信息,避免表情泄漏。
    • 掩码设计平衡了上下文保留和表情泄漏的矛盾,优于仅遮挡嘴巴或整个下半脸的方法。
  3. 遮挡处理
    • 使用预训练的视频分割模型(如SAM²)在推理时自动检测并排除遮挡物体。
    • 排除遮挡后,模型能够正确重建唇部区域,避免因遮挡导致的不自然边界。
  4. 音频驱动与同步
    • 使用HuBERT音频编码器将输入音频转换为特征嵌入,通过注意力机制与视频生成模型结合,确保唇部动作与音频紧密对齐。
  5. 损失函数设计
    • 结合潜空间的损失和RGB空间的L2损失,保留细节并提高视频质量。
    • 通过掩码确保仅对生成区域计算损失,避免不必要的误差传播。

KeySync应用场景

  1. 自动化配音
    • 在影视制作中,KeySync可用于将外语配音与演员的唇部动作完美对齐,提高多语言内容的制作效率和质量。
  2. 虚拟现实与增强现实
    • 在VR/AR环境中,KeySync能够实时生成与用户语音同步的虚拟角色唇部动作,增强沉浸感。
  3. 视频会议
    • 在网络会议中,KeySync可以改善因网络延迟或语音质量问题导致的唇部动作与语音不同步的问题,提升用户体验。
  4. 社交媒体与视频内容创作
    • 创作者可以利用KeySync为视频添加新的语言配音,快速生成多语言版本的内容,扩大受众范围。
  5. 游戏开发
    • 在游戏中,KeySync能够实时生成与角色语音同步的唇部动画,提升游戏的真实感和交互性。
  6. 教育与培训
    • 在语言学习或专业培训视频中,KeySync可以生成与讲解语音同步的唇部动作,帮助学习者更好地理解和模仿发音。

KeySync项目入口

项目官网:https://antonibigata.github.io/KeySync/

技术论文:https://arxiv.org/pdf/2505.00497

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...