JoyVASA:京东健康国际公司等推出的音频驱动肖像动画项目
JoyVASA简介
JoyVASA是由京东健康国际公司与浙江大学联合开发的一种创新的音频驱动肖像动画项目。该技术基于扩散模型,通过解耦动态面部表情与静态3D面部表示,能够生成具有高视频质量和唇形同步准确性的动画。JoyVASA不仅适用于人类肖像,还能无缝扩展至动物面部动画,支持多语言,并在实验中展现了其有效性。未来,开发团队将致力于提升模型的实时处理能力和表情控制的精细度,以进一步拓宽其在肖像动画领域的应用。
JoyVASA主要功能
- 音频驱动的面部动画:JoyVASA能够根据输入的音频信号生成相应的面部动态和头部运动,实现音频与视觉动画的同步。
- 解耦面部表示:将动态面部表情从静态3D面部表示中分离,允许系统独立处理表情动画和人物身份特征。
- 身份独立的运动生成:通过扩散变换器,生成与角色身份无关的运动序列,提高了动画生成的灵活性和适用性。
- 多语言支持:在包含中文和英文数据的混合数据集上训练,使模型能够处理多种语言的音频输入。
- 高质量动画输出:结合3D面部表示和生成的运动序列,渲染出高分辨率和高帧率的动画视频。
JoyVASA技术原理
- 解耦面部表示框架:使用Liveportrait框架,将面部表示分解为3D外观特征和运动特征,实现静态和动态面部特征的分离。
- 扩散变换器:训练一个扩散模型,直接从音频提示中生成运动序列,不依赖于额外的图像数据。
- 音频特征提取:使用wav2vec2编码器提取音频特征,作为扩散模型的条件数据,以生成与音频同步的面部动态。
- 运动序列生成:在扩散过程中,模型从带噪声的观测中采样预测运动,通过时间步迭代去噪,生成清晰的运动样本。
- 分类器自由引导(Classifier-free guidance, CFG):在运动序列生成过程中应用CFG,直接对模型进行输出条件,提高生成样本的灵活性和保真度。
- 损失函数:使用简单损失、速度损失、平滑损失和表情损失等多重损失函数,以加强对模型预测的约束,提高生成质量。
- 推理流程:在推理阶段,结合参考图像的3D面部外观特征和输入语音的音频特征,通过扩散模型采样运动序列,并渲染最终的动画视频。
JoyVASA应用场景
- 数字虚拟助手:JoyVASA可以用于创建逼真的虚拟助手,提供更加自然和吸引人的交互体验,增强用户与数字助手之间的沟通。
- 在线教育和培训:在远程教学中,JoyVASA能够将教师的语音转换为动态的面部表情和动作,使得在线课程更加生动和互动。
- 娱乐和社交媒体:该技术可以用于生成社交媒体上的明星或影响者的动态肖像,提供更加真实和吸引人的内容。
- 视频会议:JoyVASA能够在视频会议中实时生成与语音同步的面部动画,提高远程沟通的自然度和效率。
- 游戏和动画制作:在游戏和动画产业中,该技术可以用于快速生成角色的面部动画,减少传统动画制作的时间和成本。
- 客户服务:在客户服务领域,JoyVASA可以创建逼真的客户服务代表的虚拟形象,提供更加亲切和专业的服务体验。
JoyVASA项目入口
- 项目主页:https://jdh-algo.github.io/JoyVASA
- GitHub代码库:https://github.com/jdh-algo/JoyVASA
- HuggingFace模型:https://huggingface.co/jdh-algo/JoyVASA
- arXiv技术论文:https://arxiv.org/pdf/2411.09209
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...