FlashVideo：字节联合香港高校推出的高分辨率视频生成框架

0 20

FlashVideo简介

FlashVideo是由香港大学、香港中文大学和字节跳动联合开发的一种高效高分辨率视频生成框架。它采用创新的两阶段设计，第一阶段在低分辨率下生成与文本提示高度匹配的视频内容，优先保证语义保真度和流畅的运动效果；第二阶段通过流匹配技术将视频提升至高分辨率，精细增强细节，同时显著减少计算开销。FlashVideo不仅在高分辨率视频生成上达到了行业领先水平，还通过分阶段处理大幅降低了计算成本和等待时间，为用户提供了快速预览和高效生成的双重优势，具有重要的商业应用价值。

FlashVideo主要功能

高效高分辨率视频生成：FlashVideo能够生成高分辨率（1080p）的视频，同时保持与文本提示的高度一致性。
两阶段生成框架：
- 第一阶段生成低分辨率视频，确保内容和运动与文本提示高度匹配。
- 第二阶段将低分辨率视频提升至高分辨率，增强细节并减少计算开销。
快速预览功能：用户可以在全分辨率生成之前预览初始低分辨率输出，从而决定是否进行高分辨率生成，节省时间和计算资源。
流匹配技术：通过流匹配技术直接从低质量视频生成高质量视频，减少了冗余的采样步骤，仅需4次函数评估即可生成高分辨率视频。

FlashVideo技术原理

两阶段生成框架：
- 低分辨率阶段（Stage I）：
  - 使用50亿参数的CogVideoX-5B模型，在270p分辨率下生成视频。
  - 通过参数高效微调（PEFT）适应低分辨率，保持计算效率。
- 高分辨率阶段（Stage II）：
  - 使用20亿参数的CogVideoX-2B模型，通过流匹配技术将低分辨率视频提升至1080p。
  - 仅需4次函数评估即可生成高分辨率视频，显著减少计算开销。
流匹配技术：通过直接从低质量视频到高质量视频的ODE轨迹映射，减少了从高斯噪声开始的冗余采样步骤，实现了高效生成。
低质量视频模拟：通过像素空间降质（DEGpixel）和潜在空间降质（DEGlatent）模拟低质量视频，使模型能够生成更合理的结构，尤其是对于小物体。
粗到细的训练（Coarse-to-fine training）：先在低分辨率图像和视频上进行大规模预训练，然后扩展到目标分辨率1080p，并通过人类偏好对齐的小数据集进行微调，提升性能。
人类偏好对齐：通过手动筛选高质量样本集进行微调，确保生成的视频符合人类审美，提高视觉质量。