PixelFlow：香港大学联合Adobe推出的图像生成模型

0 100

PixelFlow简介

PixelFlow是由香港大学和Adobe联合开发的一种新型图像生成模型。它摒弃了传统潜在空间模型依赖预训练变分自编码器（VAE）的模式，直接在原始像素空间中进行端到端的图像生成。通过高效的级联流建模，PixelFlow从低分辨率逐步过渡到高分辨率，显著降低了计算成本。在256×256 ImageNet类别条件图像生成基准测试中，PixelFlow达到了1.98的FID分数，与主流潜在空间模型相比毫不逊色。此外，它在文本到图像生成任务中也表现出色，能够生成高质量、语义对齐的图像。PixelFlow的创新为未来视觉生成模型的发展提供了新的思路和方向。

PixelFlow主要功能

高质量图像生成：
- PixelFlow能够在像素空间中直接生成高质量图像，无需依赖预训练的变分自编码器（VAE），从而避免了潜在空间模型中常见的细节丢失问题。
- 它在256×256 ImageNet类别条件图像生成基准测试中达到了1.98的FID分数，显示出与潜在空间模型相媲美的生成质量。
文本到图像生成：
- PixelFlow支持文本到图像生成任务，能够根据复杂的文本提示生成高质量的图像，展现出强大的语义对齐能力和细节表现力。
- 在多个基准测试中，如T2I-CompBench、GenEval和DPG-Bench，PixelFlow均取得了优异的成绩，证明了其在自由形式文本到图像生成中的强大能力。
高效的计算策略：
- 通过级联流建模，PixelFlow从低分辨率逐步过渡到高分辨率，避免了在全分辨率下进行所有去噪步骤，显著降低了计算成本，提高了生成效率。
- 在训练和推理过程中，PixelFlow采用统一的模型参数和端到端的训练方式，简化了模型设计并提高了整体性能。

PixelFlow技术原理

级联流建模：
- PixelFlow采用级联流建模，将图像生成过程分为多个阶段，每个阶段从低分辨率逐步过渡到高分辨率。
- 在每个阶段，模型通过流匹配算法（Flow Matching）逐步去噪并提升图像质量，最终达到目标分辨率。
流匹配算法（Flow Matching）：
- 流匹配算法通过定义一个从先验分布（如标准正态分布）到目标数据分布的连续路径，逐步将噪声样本转换为真实图像。
- 在训练过程中，模型通过线性插值生成训练样本，并预测从噪声样本到真实样本的转换速度。
Transformer架构：
- PixelFlow基于Transformer架构，使用Diffusion Transformer（DiT）的XL规模配置。
- 为了适应像素空间生成，模型引入了Patchify、RoPE（旋转位置编码）和分辨率嵌入等改进，以更好地处理不同分辨率的图像。
文本到图像生成的交叉注意力机制：
- 在文本到图像生成任务中，PixelFlow在每个Transformer块中引入了交叉注意力层，使模型能够在生成过程中有效地对齐视觉特征与文本输入。
- 通过使用Flan-T5-XL语言模型提取丰富的文本嵌入，PixelFlow能够生成与文本描述高度一致的图像。
端到端训练：
- PixelFlow采用端到端的训练方式，整个模型从低分辨率到高分辨率的生成过程都在一个统一的框架内完成。
- 这种训练方式避免了传统级联模型中不同阶段需要单独训练的问题，提高了模型的整体性能和优化效率。