LatentSync:字节联合北京交通大学推出的端到端唇形同步框架

LatentSync简介

LatentSync是由字节跳动公司与北京交通大学联合开发的端到端唇形同步框架,它基于音频条件的潜在扩散模型,无需中间运动表示即可直接模拟复杂的音视频关联。该框架通过创新的时间表示对齐技术TREPA,显著提升了唇形同步的时间一致性,并解决了SyncNet在训练中的收敛问题,使其在多个数据集上超越了现有的唇形同步技术。

LatentSync:字节联合北京交通大学推出的端到端唇形同步框架

LatentSync主要功能

  1. 唇形同步生成:LatentSync能够根据输入的语音生成准确的唇部运动,用于视频人物的唇形与语音同步。
  2. 端到端框架:作为一个端到端的系统,LatentSync直接从音频到视频帧生成,无需任何中间的3D表示或2D地标。
  3. 时间一致性增强:通过TREPA技术,LatentSync增强了视频帧之间的时间一致性,改善了传统扩散模型中的视频闪烁问题。
  4. SyncNet收敛改进:对SyncNet进行了深入研究,提高了其在唇形同步任务中的准确性和收敛性。
  5. 性能优越:在HDTF和VoxCeleb2数据集上,LatentSync超越了现有的唇形同步方法,表现出更高的准确性和更好的视频质量。

LatentSync技术原理

  1. 音频条件潜在扩散模型:利用Stable Diffusion模型直接捕捉音视频之间的复杂关联,实现动态和逼真的说话视频生成。
  2. TREPA(Temporal REPresentation Alignment):使用大规模自监督视频模型提取的时间表示来对齐生成帧与真实帧,增强时间一致性。
  3. SyncNet监督:通过在潜在空间和像素空间中训练SyncNet,LatentSync提高了唇形同步的准确性。
  4. 两阶段训练:第一阶段侧重于视觉特征学习,第二阶段引入SyncNet损失进行精细化训练。
  5. 混合噪声模型:在训练中使用共享噪声和独立噪声,确保模型能够正确学习时间信息。
  6. 仿射变换和固定遮罩:在数据预处理阶段使用仿射变换进行面部正面化,并应用固定遮罩以防止信息泄露。
  7. 经验研究:对影响SyncNet收敛的模型架构、训练超参数和数据预处理方法进行了全面的研究和优化。

LatentSync应用场景

  1. 影视后期制作:在电影或电视剧的后期制作中,LatentSync可以用于生成或修正演员的唇形同步,提高制作效率和最终效果的真实性。
  2. 视频会议:在视频会议中,LatentSync可以实时同步发言人的唇形和语音,提升远程交流的自然感和互动性。
  3. 虚拟主播:在新闻播报或直播中,LatentSync能够为虚拟角色生成自然的唇形动作,使其表现更加逼真。
  4. 语音助手:LatentSync可以为语音助手生成匹配语音指令的唇形动作,增强用户体验。
  5. 游戏和虚拟现实:在游戏中,LatentSync可以为NPC(非玩家角色)生成逼真的唇形和面部表情,提升游戏的沉浸感。
  6. 语言学习应用:LatentSync可以用于语言学习软件,帮助学习者通过视觉反馈更好地理解和学习发音。

LatentSync项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...