Magic Mirror:生成具有电影级质量和动态运动的身份保持视频

Magic Mirror简介

Magic Mirror是由来自香港中文大学、香港科技大学、SmartMore和卡内基梅隆大学的研究团队共同开发的创新框架,旨在生成具有电影级质量和动态运动的身份保持视频。该框架基于视频扩散变换器,通过引入双分支面部特征提取器、轻量级跨模态适配器以及两阶段训练策略,有效地平衡了身份一致性与自然运动,超越了现有方法。Magic Mirror不仅在多个指标上表现出色,而且无需针对特定人物进行微调,为个性化视频生成领域带来了重大进步,为数字领域的创意表达开辟了新途径。

Magic Mirror:生成具有电影级质量和动态运动的身份保持视频

Magic Mirror主要功能

  • 身份保持视频生成:能够从单个参考图像生成高质量的个性化视频,同时在视频的每一帧中保持与参考图像一致的身份特征,如面部表情、发型等,使生成的人物在视频中具有连贯性和真实感。
  • 动态自然运动生成:生成的视频中的人物动作自然流畅,具有丰富的动态表现力,避免了现有方法中常见的动作僵硬、缺乏自然性的问题,能够更好地模拟真实世界中人物的运动。
  • 无需微调的定制化生成:作为首个无需针对特定人物进行微调即可实现定制化视频生成的框架,降低了个性化视频生成的门槛和成本,提高了生成效率,使得普通用户也能轻松获得符合自己需求的视频内容。

Magic Mirror技术原理

  • 双分支面部特征提取器
    • 从参考图像中同时提取高级身份特征和面部结构信息,分别由不同的感知器负责。其中,身份特征感知器利用预训练的面部编码器提取高级面部特征,结构特征感知器则通过可学习的嵌入提取面部结构特征。
    • 通过交叉注意力机制在迭代更新的查询和密集特征之间进行交互,获得压缩的特征嵌入,并将这些嵌入通过解耦机制进行整合,最终与文本嵌入在身份相关标记处融合,为后续的视频生成提供丰富的身份信息。
  • 轻量级跨模态适配器与条件自适应归一化(CAN)
    • 适配器集成在CogVideoX框架中,用于将面部特征嵌入有效地整合到全注意力扩散变换器架构中。适配器通过全自注意力机制将面部嵌入与文本和视频特征进行拼接,并引入专门的自适应归一化模块对面部特征进行归一化处理。
    • CAN模块预测视频和文本模态的分布偏移,通过残差连接将预测的分布偏移与原有的模态特定归一化因子相加,得到最终的调节因子,从而实现对特定参考ID的文本和视频潜在分布的增强学习,使身份条件能够更好地融入到预训练的基础模型中。
  • 两阶段训练策略
    • 图像预训练阶段:利用多样化的高质量图像数据集,如LAION-Face、SFHQ、FFHQ等,进行预训练,学习强大的身份表示。通过自引用技术和标准文本提示生成合成图像对,并采用面部相似度过滤等方法确保身份的一致性和多样性。
    • 视频微调阶段:在高质量的视频数据集,如Pexels、Mixkit以及少量网络收集的视频上进行微调,以增强视频序列中面部表情的时间一致性。同时,为每个关键帧的面部参考生成对应的合成图像数据作为参考,进一步提升视频生成的质量和稳定性。

Magic Mirror应用场景

  1. 娱乐产业:为电影、电视剧和广告制作提供虚拟角色的定制化视频内容,根据剧本需求生成具有特定身份特征和动作的视频片段,降低拍摄成本和时间。
  2. 社交媒体:用户可以利用自己的照片生成个性化的动态视频,用于社交媒体分享,增加内容的趣味性和吸引力,如生成自己在不同场景下的虚拟旅行视频。
  3. 教育领域:在在线教育课程中,根据教学内容生成具有特定身份特征的虚拟教师或讲解者的视频,提供更加生动、个性化的教学体验,提高学生的学习兴趣。
  4. 游戏开发:为游戏创建具有独特身份和动作的虚拟角色,丰富游戏剧情和角色设定,增强游戏的沉浸感和真实感,提升玩家的游戏体验。
  5. 虚拟现实(VR)和增强现实(AR):在VR/AR应用中生成与用户身份一致的虚拟形象,使用户在虚拟环境中获得更加真实、个性化的交互体验,如虚拟社交、虚拟试衣等场景。
  6. 医疗康复:为患者生成个性化的康复训练视频,根据患者的身体状况和康复需求,生成具有针对性的动作指导视频,辅助患者进行康复训练,提高康复效果。

Magic Mirror项目入口

© 版权声明

相关文章

暂无评论

暂无评论...