FantasyTalking:阿里联合北邮推出的音视频驱动的肖像动画生成框架
FantasyTalking简介
FantasyTalking是由阿里巴巴集团AMAP团队和北京邮电大学联合开发的一种新型音视频驱动的肖像动画生成框架。该技术利用预训练的视频扩散变换器模型,通过双阶段音视频对齐策略,能够从单张静态肖像生成高保真、连贯且逼真的说话肖像动画。它不仅实现了嘴唇动作与音频信号的精准同步,还能自然地驱动面部表情和身体动作,并通过面部聚焦的身份保持模块和运动强度调制网络,确保动画的身份一致性和动作多样性。FantasyTalking在多项关键指标上超越了现有最先进方法,为虚拟现实、游戏开发和影视制作等领域带来了新的可能性。

FantasyTalking主要功能
-
生成逼真的说话肖像动画:从单张静态肖像出发,生成高保真、连贯的说话头像视频,广泛应用于虚拟现实、影视制作和游戏开发等领域。
-
实现精准的音视频同步:通过双阶段音视频对齐策略,确保嘴唇动作与音频信号的精准同步,同时兼顾面部表情和身体动作的自然驱动。
-
保持身份一致性:采用面部聚焦的跨注意力模块,有效保持生成视频中人物的身份特征,避免因动作变化导致的身份信息丢失。
-
控制运动强度:通过运动强度调制网络,用户可以自定义面部表情和身体动作的幅度,实现从微妙到夸张的多样化动作表现。
-
生成自然的背景动态:在生成肖像动画的同时,能够自然地驱动背景动态,使整个场景更加逼真和连贯。
FantasyTalking技术原理
-
双阶段音视频对齐策略:
-
剪辑级对齐:通过计算整个剪辑中音频和视频令牌序列的3D全注意力相关性,建立全局音视频依赖关系,实现整体特征融合。
-
帧级对齐:专注于嘴唇运动的精确对齐,通过帧精确的音视频对齐细化嘴唇运动,并利用MediaPipe提取的嘴唇掩码约束模型关注嘴唇区域。
-
-
面部聚焦的跨注意力模块:
-
裁剪参考图像中的面部区域,确保模型只关注与身份相关的面部特征。
-
使用ArcFace提取面部特征,并通过Q-Former进行对齐,生成ID嵌入,与预训练的DiT注意力块交互,保持身份一致性。
-
-
运动强度调制网络:
-
使用Mediapipe提取面部表情运动系数,使用DWPose计算身体运动系数,并将这些系数归一化到[0, 1]范围内。
-
通过MLP、ResNet和平均池化层构建运动网络,用户可以在推理阶段自定义输入系数,以控制面部和身体运动的幅度。
-
-
基于扩散模型的视频生成:
-
采用预训练的视频扩散变换器模型(如Wan2.1架构),利用因果3D VAE压缩视频数据,并通过Transformer的强大序列建模能力生成高质量视频。
-
在训练过程中,通过逐步添加高斯噪声并优化重构损失,使模型学习从潜在空间到像素空间的映射关系。
-
-
多模态融合:
-
将音频信号、文本提示和参考图像作为条件输入,通过跨注意力机制将这些多模态信息融合到视频生成过程中,实现更自然和多样化的动画效果。
-
FantasyTalking应用场景
-
虚拟现实与增强现实:为虚拟角色生成逼真的说话动画,增强沉浸感。
-
影视制作:快速生成角色的动画,节省时间和成本,尤其适用于动画电影或特效场景。
-
游戏开发:为游戏角色创建动态表情和说话动作,提升玩家的交互体验。
-
在线教育:生成虚拟教师或讲解者的动画,使教学内容更加生动有趣。
-
虚拟客服与数字人:为虚拟客服或数字人生成自然的对话动画,提升用户体验。
-
社交媒体与娱乐:用户可以将自己的照片生成有趣的说话头像,用于社交媒体分享或短视频创作。
FantasyTalking项目入口
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...