SUGAR:能够根据输入的单个主体图像生成视频
SUGAR简介
SUGAR是一种创新的零样本主体驱动视频定制方法,能够在无需测试时微调的情况下,根据用户输入的图像和文本描述生成与文本视觉属性对齐的视频。它通过构建一个包含250万图像-视频-文本三元组的大规模合成数据集,并结合特殊的注意力机制、改进的训练策略和采样算法,显著提升了视频定制的性能,实现了在身份保持、文本对齐和视频动态方面的业界领先结果。
SUGAR主要功能
- 视频生成:SUGAR能够根据输入的单个主体图像生成视频,视频中包含与输入图像相同的主体。
- 视觉属性对齐:生成的视频能够根据用户输入的文本指令,展现出指定的风格、纹理和运动等视觉属性。
- 零样本学习能力:SUGAR不需要在测试时对模型进行微调,即可为新主体生成定制化视频。
- 身份保持:在视频生成过程中,SUGAR能够保持与输入图像相同的主体身份特征。
- 动态视频生成:与静态图像不同,SUGAR生成的是动态视频,能够展现主体的运动。
SUGAR技术原理
- 合成数据集构建:SUGAR通过一个可扩展的流程构建了一个大规模的合成数据集,包含250万个图像-视频-文本三元组,专门用于主体驱动的视频定制。
- 预训练编码器:使用预训练的DINOv2图像编码器、CLIP图像编码器和T5文本编码器来提取输入图像和文本的特征。
- 变分自编码器:基于预训练的变分自编码器的潜在空间定义的基于Transformer的扩散模型,用于生成模型的输入。
- 特殊注意力设计:提出了一种称为选择性注意力的新机制,允许嵌入体只对特定选择的其他嵌入体进行注意力操作,以改善视频动态和主体运动。
- 改进的训练策略:包括混合训练(SUGAR-Mix)、两阶段训练(SUGAR-TS)和两阶段冻结层训练(SUGAR-TSF),以优化模型在处理合成数据和真实数据时的表现。
- 无分类器引导(CFG)采样:在采样过程中,以一定概率丢弃DINO、CLIP和文本嵌入,以实现无分类器引导的采样,提高生成视频的灵活性和质量。
- 双条件采样:通过调整文本和身份条件的引导比例,SUGAR能够在保持身份一致性的同时,生成具有更好文本对齐和动态度的视频。
SUGAR应用场景
- 个性化视频制作:用户可以上传个人照片,SUGAR根据用户的风格描述生成个性化视频,适用于社交媒体分享或个人纪念。
- 电影和游戏制作:在电影或游戏的预制作阶段,SUGAR可以用来快速生成角色原型视频,帮助团队评估角色设计和动作。
- 广告和营销:企业可以利用SUGAR根据产品特点和营销文案生成吸引人的视频广告,提高广告的吸引力和个性化程度。
- 教育和培训:SUGAR可以生成特定场景的教学视频,如模拟实验或历史事件,增强学习材料的互动性和教育效果。
- 虚拟试衣:在时尚行业,SUGAR可以根据用户上传的图片生成穿着不同风格服装的动态视频,提供虚拟试衣体验。
- 新闻和报道:新闻机构可以使用SUGAR将静态图片转换为动态视频,快速制作新闻故事的视觉内容,提高报道的吸引力。
SUGAR项目入口
- 项目主页:https://yufanzhou.com/SUGAR/
- arXiv研究论文:https://arxiv.org/pdf/2412.10533
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...