CustomVideoX：中科大等推出的零样本个性化视频生成框架

0 70

CustomVideoX简介

CustomVideoX是由中国科学技术大学、浙江大学和香港科技大学（广州）联合开发的创新框架，旨在实现零样本个性化视频生成。该框架基于视频扩散变换器（VDiT）架构，通过3D参考注意力机制，将参考图像特征与视频帧进行直接交互，确保生成视频在时空维度上的一致性。开发团队还引入了时间感知注意力偏差（TAB）策略和实体区域感知增强（ERAE）模块，动态调节参考特征的影响权重，并突出关键实体区域，从而提升生成视频的质量和主体保真度。此外，团队构建了大规模高质量的定制化视频数据集和基准测试框架VideoBench，用于训练和评估模型性能。CustomVideoX在多个基准测试中表现出色，为个性化视频生成领域提供了新的技术突破。

CustomVideoX主要功能

个性化视频生成：根据用户提供的参考图像和文本描述，生成与参考图像风格一致且符合文本内容的高质量视频。
零样本生成能力：无需针对特定任务进行额外的微调或训练，直接利用预训练模型和少量参考信息完成视频生成。
高时空一致性：生成的视频在时间维度上保持连贯性，同时在空间维度上保留参考图像的细节和主体特征。
多样化场景适配：支持多种场景和对象的视频生成，包括动物、人物、自然景观等，满足不同用户需求。
高效特征提取与注入：通过3D参考注意力机制，将参考图像特征高效注入到视频生成过程中，提升生成效率和质量。

CustomVideoX技术原理

3D参考注意力（3D Reference Attention）：
- 提取参考图像的特征，并将其与视频帧特征进行直接交互。
- 通过位置编码偏移，使参考特征与视频帧在时空维度上更自然地融合，增强主体一致性。
时间感知注意力偏差（Time-Aware Attention Bias, TAB）：
- 在扩散模型的去噪过程中，动态调整参考特征的权重。
- 采用抛物线时间掩码，使参考特征在去噪过程的中间阶段增强，而在初始和最终阶段减弱，从而平衡结构保真度和时间连贯性。
实体区域感知增强（Entity Region-Aware Enhancement, ERAE）：
- 通过激活阈值化计算关键实体区域，并对这些区域进行语义增强。
- 在不牺牲背景多样性的情况下，突出主体特征，提升生成视频的主体保真度。
基于扩散模型的生成框架：
- 利用视频扩散变换器（VDiT）架构，结合预训练的文本和视觉编码器，生成高质量的视频内容。
- 通过LoRA（Low-Rank Adaptation）技术，仅训练少量参数即可实现高效的参考特征注入，避免对预训练模型的破坏。
高质量数据集与基准测试：
- 构建了大规模的高质量定制化视频数据集，用于模型训练和验证。
- 提出了VideoBench基准测试框架，涵盖多种对象和场景，用于全面评估个性化视频生成性能。