StableAnimator:复旦大学和微软联合推出的人类图像动画扩散框架

StableAnimator简介

StableAnimator是由复旦大学智能信息处理实验室和微软亚洲研究院共同开发的一种先进的人类图像动画扩散框架。该框架能够在无需任何后处理的情况下,基于参考图像和一系列姿势合成高质量、身份一致的视频。通过精心设计的模块,StableAnimator在训练和推理过程中均致力于保持人物身份的一致性,有效地解决了现有方法在处理复杂姿势变化时面部区域失真的问题。

StableAnimator:复旦大学和微软联合推出的人类图像动画扩散框架

StableAnimator主要功能

  1. 身份保持动画合成:StableAnimator能够根据给定的姿势序列,合成保持参考图像身份信息的高质量动画视频。
  2. 端到端框架:作为一个端到端的视频扩散框架,StableAnimator无需额外的后处理即可生成动画。
  3. 高质量视频生成:该框架能够生成高保真度的视频,无论是在面部细节还是整体动作上。
  4. 实时性能:StableAnimator在推理时采用优化技术,能够实时生成动画视频。

StableAnimator技术原理

  1. 图像和面部嵌入:使用现成的提取器分别计算图像和面部嵌入,为后续的身份保持提供基础信息。
  2. 全局内容感知面部编码器:通过与图像嵌入的交互,进一步优化面部嵌入,增强对参考图像全局布局的感知。
  3. 分布感知ID适配器:引入一种新颖的适配器,通过特征分布对齐,减少时间层引入的干扰,保持身份信息。
  4. HJB方程优化:在推理过程中,基于HJB方程进行面部优化,进一步增强面部质量,减少对后处理工具的依赖。
  5. 特征分布对齐:通过调整特征分布的均值和方差,使得面部嵌入与扩散潜在表示的特征分布保持一致,减少特征失真。
  6. 端到端训练:模型通过重建损失进行训练,包括UNet、面部编码器和姿态网络,同时使用面部掩码来增强面部区域的建模。
  7. 优化控制理论:将最优控制理论中的HJB方程应用于动态系统中的变量选择,以最大化累积奖励,这里指的是身份一致性。

StableAnimator应用场景

  1. 娱乐内容创作:用于生成音乐视频、电影预告片中的动态人物图像,增强视觉冲击力和观众体验。
  2. 虚拟现实(VR)体验:在VR游戏中创建逼真的NPC角色,提供更加沉浸式的交互体验。
  3. 数字人创建:为虚拟主播、虚拟助手等数字人提供动态表情和动作,使其更加自然和真实。
  4. 社交媒体:用户可以将自己的静态照片转换成动态视频,用于社交媒体平台的内容分享。
  5. 教育培训:在模拟训练中,如医学模拟或军事训练,生成逼真的人物动作和反应,提高训练效果。
  6. 广告制作:为广告行业提供快速生成高质量人物动画的技术,用于制作吸引人的广告视频。

StableAnimator项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...