SWD：显著降低生成高分辨率图像的计算成本

0 30

SWD简介

SWD（Scale-wise Distillation of Diffusion Models）是由 Yandex Research 团队开发的一种新型扩散模型蒸馏框架。该框架通过在扩散过程中逐步提升图像分辨率的方式，显著提高了少步生成器的效率和性能。SWD 借鉴了扩散过程与隐式谱自回归的关联，能够在高噪声水平下以较低分辨率进行安全建模，从而避免冗余计算并加速生成过程。此外，SWD 还引入了创新的补丁分布匹配损失函数，进一步提升了生成图像与目标分布的细粒度相似性。在实验中，SWD 展示出了优异的性能，不仅在生成速度上大幅领先于传统方法，还在图像质量上与现有顶尖模型相媲美甚至更优。

SWD主要功能

加速扩散模型的图像生成：通过在扩散过程中逐步提升图像分辨率，减少高噪声水平下的冗余计算，显著降低生成高分辨率图像的计算成本，从而加快生成速度。
保持生成质量：在减少计算量的同时，通过优化的训练策略和损失函数（如补丁分布匹配损失），确保生成图像的质量与全分辨率模型相当，甚至在某些指标上优于现有方法。
提高少步生成器的性能：将扩散模型的生成步骤从数十步减少到仅几步，同时保持高质量的输出，使其在实际应用中更加高效，尤其是在对实时性要求较高的场景中。
兼容多种扩散模型架构：能够与现有的扩散模型（如基于Transformer的架构）无缝集成，适用于多种文本到图像的生成任务，具有广泛的适用性。

SWD技术原理

尺度逐步提升（Scale-wise Generation）：
- 在扩散过程中，从低分辨率的噪声开始，逐步提升图像分辨率，而不是直接在全分辨率下进行生成。
- 利用高噪声水平下高频信息被抑制的特点，避免在这些噪声水平下进行不必要的高分辨率计算。
分布匹配（Distribution Matching）：
- 通过最小化生成图像与目标图像之间的分布差异来训练模型，确保生成图像与真实图像在统计特性上高度一致。
- 引入补丁分布匹配损失（Patch Distribution Matching, PDM），通过计算图像补丁之间的最大均值差异（MMD），进一步提高生成图像与目标图像的细粒度相似性。
噪声注入与时间表调整（Noise Injection and Time Schedule Shifting）：
- 在上采样过程中注入噪声，以减少上采样带来的伪影，确保生成图像与真实噪声图像的分布对齐。
- 调整扩散过程中的时间表，将时间步移至更高值，进一步减少上采样带来的影响。
多尺度训练（Multi-scale Training）：
- 在训练过程中，模型同时在多个分辨率上进行训练，学习如何从低分辨率逐步生成高分辨率图像。
- 通过这种方式，模型不仅能够生成高质量的图像，还能在不同分辨率下保持良好的性能。
基于Transformer的架构优化：
- 利用Transformer架构中的注意力机制，使得模型能够更有效地处理高分辨率图像，同时保持计算效率。
- 通过LoRA（Low-Rank Adaptation）适配器对预训练的扩散模型进行微调，进一步提升模型的性能和适应性。