Ingredients:多ID视频定制化框架

Ingredients简介

Ingredients是一种基于视频扩散Transformer的多ID视频定制化框架,旨在将多个特定身份照片与视频内容相结合,生成具有高度个性化和身份一致性的动态视频。该框架包含三个关键模块:面部提取器、多尺度投影器和ID路由器。面部提取器从全局和局部视角精确捕获每个ID的面部特征;多尺度投影器将面部嵌入映射到视频扩散Transformer的图像查询上下文空间中,实现特征的深度融合;ID路由器则动态分配和整合多个ID嵌入,避免身份混合。通过精心设计的多阶段训练过程,Ingredients优化了面部特征提取和多ID路由,使生成的视频不仅在视觉质量上表现出色,还能精准响应用户定义的文本提示,为个人故事讲述、宣传视频制作等多样化应用提供了强大的工具支持。

Ingredients:多ID视频定制化框架

Ingredients主要功能

  • 多ID视频定制化:能够根据用户提供的多个特定身份照片,生成具有高度个性化和身份一致性的视频内容,满足不同场景下对视频人物形象的定制需求.
  • 身份保持:在生成视频的过程中,确保每个ID的身份特征得到精准保留和呈现,避免不同ID之间的特征混淆或混合,使每个角色都具有独特的身份标识.
  • 文本控制信号响应:支持用户通过文本提示来引导视频生成过程,实现对视频内容、风格、动作等方面的精细控制,提升视频的可定制性和灵活性.
  • 高质量视频生成:生成的视频在视觉质量上表现出色,具有高分辨率、清晰的图像细节和流畅的动态效果,满足高质量视频制作的标准.

Ingredients技术原理

  • 面部提取器
    • 全局面部嵌入:通过面部检测提取图像中的个体面部区域,将其组合成一个大图像,然后输入VAE提取浅层特征表示,以获得包含所有ID信息的全局特征.
    • 局部面部嵌入:利用面部识别骨干网络提取代表内在身份属性的特征,并结合CLIP图像编码器捕获语义丰富的特征,为每个ID保留独立的局部特征.
  • 多尺度投影器
    • 全局面部嵌入映射:将经过VAE处理的全局面部嵌入直接与潜在噪声输入连接,使其融入视频扩散Transformer的图像查询上下文空间.
    • 局部面部嵌入融合:采用多步融合策略,将面部识别骨干网络提取的多尺度特征与CLIP特征结合,再通过Q-former结构的交叉注意力机制与视频扩散Transformer的视觉token进行交互,实现局部特征的有效映射.
  • ID路由器
    • 位置感知路由:通过路由网络为每个潜在面部区域分配唯一身份,避免身份特征在潜在特征中的混合,确保每个视频帧中的面部区域与相应的ID特征对应.
    • 路由损失优化:引入路由损失,采用分类损失对路由网络进行监督,使其在训练过程中能够准确识别和分配不同ID的面部特征,提升身份保持效果.
  • 多阶段训练过程
    • 面部嵌入对齐阶段:主要优化面部提取器和多尺度投影器,通过低秩适应(LoRA)增强视频DiT架构中面部特征的整合,使用传统扩散损失进行训练.
    • 路由微调阶段:在完成面部嵌入对齐后,对ID路由器进行微调,固定其他参数,仅调整路由网络和DiT的LoRA模块,使用多标签交叉熵损失对路由进行优化,确保路由的准确性和视频生成的高质量.

Ingredients应用场景

  • 个人故事讲述:用户可以根据自己的照片生成个性化的视频故事,如成长历程、旅行回忆等,使故事更加生动有趣.
  • 宣传视频制作:企业或个人可以将特定人物形象融入宣传视频中,如产品代言人、创始人等,增强视频的吸引力和可信度.
  • 虚拟角色创作:在游戏、动画或虚拟现实领域,根据特定角色设定的照片生成符合其形象的动态视频内容,丰富虚拟角色的表现形式.
  • 教育与培训:将教师或专家的照片用于生成教学视频,使教学内容更具个性化和亲切感,提高学习者的参与度和学习效果.
  • 社交媒体内容创作:用户可以利用自己的照片创作独特的视频内容,如搞笑视频、生活Vlog等,在社交媒体上分享,吸引更多的关注和互动.
  • 影视后期制作:在影视后期制作中,根据演员的照片生成符合剧情需要的视频片段,如替身镜头、特效合成等,提高制作效率和视频质量.

Ingredients项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...