SkyReels-V2：昆仑万维SkyReels团队推出的无限时长电影生成模型

0 60

SkyReels-V2项目简介

SkyReels-V2是由Skywork AI团队开发的无限长度电影生成模型，旨在突破现有视频生成技术在视觉质量、运动动态和持续时间上的限制。该模型通过结合多模态大型语言模型（MLLM）、多阶段预训练、强化学习和扩散强迫框架，实现了高质量的长视频生成。SkyReels-V2采用了一种综合的视频结构化表示方法，结合了MLLM的一般描述和子专家模型的详细镜头语言，通过人类标注辅助训练的SkyCaptioner-V1模型高效地标记视频数据。此外，该模型通过多阶段预训练和后训练优化，显著提升了运动质量和视觉保真度。SkyReels-V2在长视频生成、故事创作、图像到视频合成、镜头导演和元素到视频生成等多个应用场景中表现出色，为视频生成领域带来了新的突破。

SkyReels-V2主要功能

无限长度视频生成：
- 能够生成理论上无限长的视频内容，突破了传统视频生成模型在时长上的限制。通过滑动窗口方法，模型可以根据前几帧和文本提示持续生成新的视频帧，从而实现视频的无限扩展。
高质量视觉效果：
- 提供高分辨率、高保真度的视频输出，确保视频在视觉上具有专业电影级别的质量。通过多阶段预训练和后训练优化，模型在视觉一致性和细节表现上表现出色。
运动动态优化：
- 通过强化学习和半自动数据收集管道，显著提升了视频中主体的运动质量，确保运动自然、流畅且符合物理规律。模型能够处理复杂的运动场景，避免运动失真和伪影。
镜头语言理解：
- 能够理解和生成符合电影语法的镜头语言，包括镜头类型、镜头角度、镜头位置、主体表情和镜头运动等。这使得生成的视频具有更强的叙事性和专业感。
多种应用场景支持：
- 支持多种视频生成任务，包括故事生成、图像到视频合成、镜头导演和元素到视频生成等。用户可以根据不同的需求选择合适的生成模式。

SkyReels-V2技术原理

多模态大型语言模型（MLLM）：
- 结合多模态LLM和子专家模型，生成视频的结构化描述。MLLM负责提供视频的一般描述，而子专家模型则专注于镜头语言的详细描述，如镜头类型、角度、位置等。
多阶段预训练：
- 采用渐进式分辨率预训练，从低分辨率（256p）逐步提升到高分辨率（720p），确保模型在不同分辨率下都能生成高质量的视频。预训练阶段通过多种数据过滤策略，逐步提升数据质量。
强化学习优化：
- 使用强化学习（RL）对预训练模型进行运动质量优化。通过半自动数据收集管道生成偏好数据对，训练奖励模型，进而指导模型优化运动质量，避免运动失真和物理规律违反。
扩散强迫框架：
- 通过扩散强迫框架实现长视频生成。该框架允许每个视频帧独立地进行去噪，从而实现视频的无限扩展。通过非递减噪声时间表，显著减少了搜索空间，提高了训练效率。
高质量监督微调（SFT）：
- 在预训练和强化学习之后，进行高质量的监督微调，进一步提升模型的视觉保真度和整体性能。SFT阶段使用高质量、概念平衡的数据，确保模型在不同场景下都能生成高质量的视频。
数据处理和标注：
- 采用多阶段数据处理和标注流程，包括数据源整合、预处理、人类标注和质量验证。通过严格的过滤和标注流程，确保训练数据的高质量和多样性。