AniTalker：通过静态肖像和音频输入生成能说话的视频

0 90

AniTalker项目介绍

AniTalker是由上海交通大学X-LANCE实验室和AISpeech有限公司共同开发的面部动画框架。该框架利用自监督学习技术，通过单张静态肖像和音频输入，生成具有自然流畅动作的动画谈话视频。AniTalker采用身份解耦策略，最小化身份信息在动作表示中的干扰，提高了动作编码的通用性。其技术包括度量学习、互信息解耦和层次聚合层，能够捕捉细微的面部表情和头部动作。该框架在虚拟助手、教育、娱乐等多个领域具有应用潜力。

AniTalker主要功能

❶生成逼真的谈话面孔: 从单个静态肖像和输入音频生成具有自然流畅动作的动画谈话视频。
❷捕捉面部动态: 包括微妙的表情、头部动作等非语言线索。
❸身份解耦: 通过最小化身份和动作编码器之间的互信息,生成与身份无关的动作表示,提高了通用性。
❹多样性和可控性: 通过扩散模型和方差适配器生成多样化、可控的面部动画。
❺真实感和动态性: 生成的面部动画具有高度的真实感和动态性,适用于数字人脸的现实表示。
❻通用性: 训练好的模型可以泛化到卡通、雕塑、浮雕等非真实人脸图像。

AniTalker应用场景

❶虚拟助手和客服：AniTalker可以生成逼真的虚拟面孔，用于创建虚拟助手或客服代表，提供更加自然和亲切的交互体验。
❷电影和游戏制作：在电影、电视或电子游戏中，AniTalker可以用于生成或增强角色的面部表情和动作，减少实际拍摄或动作捕捉的需求。
❸教育和培训：在教育软件中，AniTalker可以用来创建虚拟教师或讲解者，提供更加生动的教学内容，增强学习体验。
❹社交媒体和娱乐：用户可以利用AniTalker生成有趣的谈话视频，用于社交媒体分享或娱乐内容创作，增加互动性和趣味性。
❺视频会议和远程工作：在视频会议或远程工作场景中，AniTalker可以为参与者提供个性化的虚拟面孔，改善沟通效果，尤其是在需要保护隐私或增强表现力时。

AniTalker技术原理

❶自监督学习: 采用自监督学习策略来学习微妙的动作表示,无需大量标注数据。
❷度量学习: 用于生成鲁棒的身份信息,通过正负样本对来增强网络的区分能力。
❸互信息解耦: 使用互信息度量来评估身份编码器和动作编码器输出之间的依赖性,并优化以确保动作编码器主要捕获动作信息。
❹层次聚合层: 整合不同阶段的图像编码器的信息,捕获不同尺度的运动变化。
❺扩散模型: 用于生成动作潜在序列,通过逐步引入和去除噪声来捕获动作的分布,增强生成结果的多样性。
❻方差适配器: 一个残差分支,连接到音频特征,允许对语音信号进行可选控制,用于操纵特定属性
❼两阶段生成流程: 第一阶段训练动作表示,第二阶段基于训练好的动作编码器和图像渲染器生成视频。