SUGAR：能够根据输入的单个主体图像生成视频

0 100

SUGAR简介

SUGAR是一种创新的零样本主体驱动视频定制方法，能够在无需测试时微调的情况下，根据用户输入的图像和文本描述生成与文本视觉属性对齐的视频。它通过构建一个包含250万图像-视频-文本三元组的大规模合成数据集，并结合特殊的注意力机制、改进的训练策略和采样算法，显著提升了视频定制的性能，实现了在身份保持、文本对齐和视频动态方面的业界领先结果。

SUGAR主要功能

视频生成：SUGAR能够根据输入的单个主体图像生成视频，视频中包含与输入图像相同的主体。
视觉属性对齐：生成的视频能够根据用户输入的文本指令，展现出指定的风格、纹理和运动等视觉属性。
零样本学习能力：SUGAR不需要在测试时对模型进行微调，即可为新主体生成定制化视频。
身份保持：在视频生成过程中，SUGAR能够保持与输入图像相同的主体身份特征。
动态视频生成：与静态图像不同，SUGAR生成的是动态视频，能够展现主体的运动。

SUGAR技术原理

合成数据集构建：SUGAR通过一个可扩展的流程构建了一个大规模的合成数据集，包含250万个图像-视频-文本三元组，专门用于主体驱动的视频定制。
预训练编码器：使用预训练的DINOv2图像编码器、CLIP图像编码器和T5文本编码器来提取输入图像和文本的特征。
变分自编码器：基于预训练的变分自编码器的潜在空间定义的基于Transformer的扩散模型，用于生成模型的输入。
特殊注意力设计：提出了一种称为选择性注意力的新机制，允许嵌入体只对特定选择的其他嵌入体进行注意力操作，以改善视频动态和主体运动。
改进的训练策略：包括混合训练（SUGAR-Mix）、两阶段训练（SUGAR-TS）和两阶段冻结层训练（SUGAR-TSF），以优化模型在处理合成数据和真实数据时的表现。
无分类器引导（CFG）采样：在采样过程中，以一定概率丢弃DINO、CLIP和文本嵌入，以实现无分类器引导的采样，提高生成视频的灵活性和质量。
双条件采样：通过调整文本和身份条件的引导比例，SUGAR能够在保持身份一致性的同时，生成具有更好文本对齐和动态度的视频。