JoyGen:京东联合港大推出的新型说话脸视频编辑框架

JoyGen简介

JoyGen是由京东和香港大学联合开发的一种新型说话脸视频编辑框架。它通过创新的两阶段方法,实现了精确的唇部-音频同步和高质量的视觉效果。在第一阶段,JoyGen利用3D重建模型和音频驱动的运动生成模型,分别预测身份和表情系数,从而生成自然的唇部运动。第二阶段则将音频特征与面部深度图结合,为生成的视频提供全面的监督,确保唇部运动与音频的精准匹配。此外,开发团队还构建了一个包含130小时高质量中文视频的数据集,为相关研究提供了丰富的资源。JoyGen在实验中展现了卓越的性能,其训练代码、模型权重和示例视频均已开源,为推动说话脸视频生成技术的发展提供了有力支持。

JoyGen:京东联合港大推出的新型说话脸视频编辑框架

JoyGen主要功能

  1. 精确的唇部-音频同步:通过结合音频特征和面部深度图,JoyGen能够生成与输入音频精确同步的唇部运动,确保生成的说话脸视频在口型上与声音高度匹配。
  2. 高质量视觉效果:利用单步UNet架构和潜在空间预测技术,JoyGen能够在保持唇部运动自然性的同时,生成高质量的面部图像,避免模糊或失真。
  3. 唇部运动编辑:专注于编辑和细化现有视频中的唇部运动,而不改变视频中已有的头部姿势和眼神运动,适用于对现有视频进行精准的唇部动画调整。
  4. 多数据集训练支持:支持在开源的HDTF数据集和自建的中文说话脸数据集上进行训练,能够适应不同语言和场景下的视频生成需求,具有良好的泛化能力。

JoyGen技术原理

  1. 两阶段框架
    • 第一阶段:使用3D重建模型预测身份系数,同时利用音频到运动(audio2motion)模型推断表情系数,生成精确的唇部运动生成。
    • 第二阶段:将音频特征与面部深度图结合,为生成的唇部运动提供全面监督,确保唇部运动与音频的精确同步。
  2. 3D形态模型(3DMM)
    • 利用PCA描述3D面部空间,通过身份系数和表情系数分别控制面部的身份和表情,实现从单张图像中提取3DMM系数,为后续的运动生成提供基础。
  3. 音频到运动(Audio2Motion)模型
    • 采用流增强的变分自编码器(VAE),学习从音频信号到面部运动的映射关系,专注于通过音频信号驱动唇部运动的生成。
  4. 深度图与音频特征结合
    • 在生成过程中,将音频特征与面部深度图结合,为模型提供更丰富的监督信息,增强唇部运动与音频之间的对齐关系。
  5. 单步UNet架构
    • 在潜在空间中进行单步预测,利用目标帧(嘴部区域被遮挡)和参考帧作为输入,结合唇部深度图和音频特征,生成与音频同步的唇部运动,减少计算复杂度并提高生成质量。
  6. 多数据集训练与优化
    • 使用开源的HDTF数据集和自建的中文说话脸数据集进行训练,通过随机丢弃深度信息和应用随机位移扰动等技术,提高模型的鲁棒性和泛化能力。

JoyGen应用场景

  1. 视频内容创作:为短视频、直播等生成自然的说话脸效果,提升内容吸引力。
  2. 虚拟主播:创建逼真的虚拟主播,用于新闻播报、电商直播等场景。
  3. 影视后期制作:修复或替换影视作品中的口型,使角色的唇部运动与配音更匹配。
  4. 在线教育:生成高质量的虚拟教师形象,增强教学互动性和趣味性。
  5. 游戏开发:为游戏角色生成自然的说话动画,提升游戏沉浸感。
  6. 智能客服:创建具有自然表情和口型的虚拟客服形象,提升用户体验。

JoyGen项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...