Lumina-Video：支持文本到视频以及文本到视频+音频的生成

0 10

Lumina-Video简介

Lumina-Video 是由 Alpha-VLLM 团队开发的一个专注于视频生成的开源项目。它旨在通过文本提示生成高质量的视频内容，支持文本到视频以及文本到视频+音频的生成。项目提供了预训练模型的检查点，用户可以通过简单的命令快速进行视频生成，支持多种分辨率和帧率设置。开发团队还提供了详细的安装指南和推理示例，方便开发者快速上手。此外，Lumina-Video 在训练阶段引入了运动分数计算等技术，进一步优化了视频生成的效果。该项目的开源计划包括推理和训练代码，为视频生成领域的研究和应用提供了有力支持。

Lumina-Video主要功能

文本到视频生成：支持通过文本提示生成视频内容，用户可以输入描述性文本，生成相应的视频片段。
文本到视频+音频生成：除了生成视频，还可以根据文本提示生成带有音频的视频内容。
预训练模型检查点：提供预训练模型的下载链接，支持不同分辨率和帧率的视频生成，例如 Alpha-VLLM/Lumina-Video-f24R960。
推理
- 提供详细的推理命令示例，用户可以通过指定分辨率、帧率、提示词等参数生成视频。
- 支持多种分辨率和帧率设置，用户可以根据需求调整视频生成参数。
训练
- 提供训练前的准备工作，包括预提取 VAE 潜变量和计算运动分数。
- 使用 UniMatch 来估计光流，并将其作为运动分数用于训练过程中的微调。
开源计划：计划开源推理代码和训练代码，方便开发者使用和扩展。

Lumina-Video技术原理

模型架构
- 使用先进的深度学习模型架构进行视频生成，结合了图像生成和视频生成技术。
- 模型架构图展示了视频生成的整体设计，支持多种分辨率和帧率的视频生成。
预提取 VAE 潜变量：在训练前预提取和缓存视频数据的 VAE 潜变量，以显著提高训练速度。
运动分数计算：使用 UniMatch 估计光流，计算视频的平均光流作为运动分数，用于训练过程中的微调。
多尺度推理：支持多尺度推理，用户可以选择不同的推理配置，以提高推理效率和生成效果。
灵活的分辨率和帧率设置：支持灵活的分辨率和帧率设置，用户可以根据需求调整视频生成参数，确保生成的视频在不同设备和场景下的兼容性。
图像-文本联合训练：在训练过程中，结合图像和文本的联合训练技术，提升生成视频的质量和一致性。