ACTalker:腾讯联合清华大学等推出的端到端视频扩散框架

ACTalker简介

ACTalker是由香港科技大学、腾讯和清华大学联合开发的端到端视频扩散框架,专门用于自然的“说话头”视频生成。该框架能够同时支持多信号控制和单信号控制,通过创新的并行控制曼巴(Parallel-Control Mamba,PCM)层和掩码选择性状态空间模型(Mask-SSM)单元,解决了多信号控制中的冲突问题。开发团队通过引入掩码丢弃(mask-drop)策略,允许每个驱动信号独立控制其对应的面部区域,从而提高了视频生成的自然度和表达力。ACTalker在多信号视频合成方面取得了优于现有方法的结果,为虚拟形象和人机交互领域带来了新的技术突破。

ACTalker:腾讯联合清华大学等推出的端到端视频扩散框架

ACTalker主要功能

  1. 多信号控制
    • 支持同时使用音频和面部表情信号来控制视频生成,解决了多信号之间的冲突问题。
    • 提供灵活的控制方式,可以单独使用音频或面部表情信号,也可以同时使用两种信号。
  2. 自然的说话头视频生成
    • 生成的视频具有高自然度和表达力,能够准确同步音频和面部表情。
    • 支持高分辨率视频生成,适用于虚拟形象和人机交互场景。
  3. 精确的面部控制
    • 通过掩码选择性状态空间模型(Mask-SSM),实现对特定面部区域的精确控制,如嘴唇、眼睛等。
    • 保持身份一致性,即使在复杂的面部表情变化中也能保持人物的身份特征。

ACTalker技术原理

  1. 并行控制曼巴层(Parallel-Control Mamba,PCM)
    • 多分支结构:PCM层包含多个并行的Mask-SSM单元,每个单元处理一个驱动信号及其对应的掩码,实现多信号的并行控制。
    • 门控机制:每个分支中引入门控机制,训练时随机设置门控状态,推理时可以手动修改门控状态,实现灵活的单信号或双信号控制。
  2. 掩码选择性状态空间模型(Mask-SSM)
    • 掩码丢弃策略(Mask-Drop):通过掩码丢弃无关的特征标记,减少计算复杂度,同时增强驱动信号对目标区域的控制能力,解决控制冲突。
    • 状态空间模型(SSM):利用SSM结构高效地聚合特征标记与驱动信号,实现时空维度上的特征融合,提高生成视频的自然度。
  3. 身份嵌入(Identity Embedding)
    • 在PCM层中注入身份嵌入,确保在操纵特定面部区域时保持人物的身份特征。
    • 通过身份嵌入与驱动信号的结合,实现身份与表情的解耦,提高生成视频的稳定性和一致性。
  4. 视频扩散模型(Video Diffusion Model)
    • 基于稳定的视频扩散模型(Stable Video Diffusion),结合音频和面部表情信号,生成高质量的视频。
    • 通过优化的训练目标和分类器自由引导(Classifier-Free Guidance,CFG),进一步提升生成视频的质量和自然度。

ACTalker应用场景

  1. 虚拟形象与数字人:为虚拟主播、虚拟客服等数字人生成自然的说话头视频,提升交互体验。
  2. 视频会议与远程协作:在视频会议中,根据音频信号生成自然的面部表情和口型,改善远程沟通效果。
  3. 游戏与互动娱乐:在游戏和互动娱乐中,根据玩家的语音或表情生成实时的虚拟角色动画,增强沉浸感。
  4. 教育与培训:用于在线教育平台,生成生动的虚拟教师形象,提高学习的趣味性和吸引力。
  5. 社交媒体与内容创作:帮助创作者快速生成个性化的视频内容,如虚拟Vlog、动画短片等,丰富内容生态。
  6. 智能客服与虚拟助手:在智能客服系统中,生成自然的虚拟助手形象,提升用户与机器交互的自然度和友好度。

ACTalker项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...