Goku：香港大学联合字节推出的图像和视频生成模型

0 30

Goku简介

Goku是由香港大学和字节跳动公司联合开发的先进图像和视频生成模型。它利用改进的流（rectified flow）Transformer架构，通过精心设计的数据处理流程、模型架构、流公式化以及优化的训练基础设施，实现了高质量的视觉内容生成。开发团队通过大规模的图像和视频数据集训练，使Goku在文本到图像和文本到视频的生成任务中均表现出色，特别是在生成复杂场景和细节方面展现了卓越的能力。Goku不仅在多个基准测试中取得了行业领先的性能，还为未来多模态生成模型的研究和商业应用提供了重要的参考和启示。

Goku主要功能

图像生成：Goku能够根据输入的文本描述生成高质量的图像，适用于广告、媒体内容创作等领域。
视频生成：Goku可以根据文本描述生成连贯的视频内容，广泛应用于视频游戏、广告和虚拟现实等场景。
图像和视频联合生成：Goku支持同时生成图像和视频，确保两者在视觉风格和内容上的一致性。
高效训练：通过优化的训练基础设施，Goku能够在大规模GPU集群上高效、稳定地进行训练，处理大规模的数据集。

Goku技术原理

改进的流（rectified flow）算法：
- 流公式化：Goku采用了改进的流算法，通过在先验分布和目标数据分布之间进行线性插值，简化了建模过程，提供了更好的理论属性和更快的收敛速度。
- 快速收敛：实验表明，改进的流算法在训练速度上优于传统的去噪扩散概率模型（DDPM）。
3D联合图像-视频变分自编码器（VAE）：
- 共享潜在空间：Goku使用3D VAE将图像和视频输入压缩到共享的潜在空间中，实现统一表示。
- 高效压缩：通过在高度、宽度和时间维度上进行压缩，Goku能够高效处理图像和视频数据。
Transformer架构：
- 全注意力机制：Goku采用全注意力机制，能够在统一的网络中对多模态（图像和视频）令牌进行建模。
- 多模态联合训练：通过将图像和视频表示组织成小批量，Goku实现了图像和视频的联合训练。
数据处理流程：
- 数据过滤：使用美学评分、OCR驱动的内容分析和主观评估，确保数据的视觉和上下文质量。
- 字幕生成：利用多模态大型语言模型生成密集且上下文对齐的字幕，并通过额外的大型语言模型进一步优化字幕的准确性、流畅性和描述丰富性。
训练基础设施优化：
- 并行化策略：采用3D并行化策略，处理长序列和大规模模型，优化内存使用和计算效率。
- 激活检查点机制：通过选择性激活检查点，最大化GPU利用率，平衡计算和通信。
- 容错机制：集成MegaScale的容错机制，确保在大规模GPU集群上的稳定性和效率。
- 高效检查点保存与加载：使用ByteCheckpoint，支持并行保存和加载分区检查点，灵活适应不同的硬件配置。