NitroFusion：通过动态对抗训练框架实现高保真图像生成

0 40

NitroFusion简介

NitroFusion是由英国萨里大学CVSSP实验室的SketchX团队与NetMind.AI共同开发的一种创新单步扩散模型，它通过动态对抗训练框架实现了高保真度的图像生成。该模型采用大量专门化的判别器头来指导生成过程，并通过策略性刷新机制和多尺度质量评估技术，显著提高了单步图像合成的质量，同时保持了快速生成的优势。NitroFusion的灵活性允许用户在速度和质量之间进行权衡，适用于需要快速且高保真图像合成的应用场景。

NitroFusion主要功能

单步图像生成：能够在单一推理步骤中生成高质量、逼真的图像。
动态对抗训练：通过动态判别器池提供多样化的反馈，优化生成过程。
灵活部署：支持1至4步的去噪步骤，用户可根据需求在速度和质量间做出选择。
细节和全局一致性保持：特别擅长保留图像的细节和全局一致性。
多尺度质量评估：通过全局和局部判别器头进行图像质量评估。

NitroFusion技术原理

动态判别器池：
- 维护一个大型的、多样化的判别器头池，每个头专注于不同的噪声水平和质量方面。
- 通过随机采样和反馈机制，减少生成过程中的偏差，增强稳定性。
策略性刷新机制：
- 定期随机重新初始化一部分判别器头，以防止过拟合，保持反馈的多样性和有效性。
全局-局部判别器头：
- 使用全局和局部判别器头进行多尺度质量评估，平衡图像的整体一致性和细节清晰度。
- 结合无条件和条件训练目标，以平衡提示对齐和图像一致性。
单步对抗扩散蒸馏：
- 训练一个单步学生模型（生成器）来模仿预训练的多步教师模型，仅使用对抗性损失来批评教师和学生的预测。
多尺度和双目标GAN训练：
- 利用预训练的UNet编码器进行全局和局部（补丁）判别，以评估整个图像或细粒度细节。
- 引入双目标GAN训练，应用条件和无条件的对抗性损失，减少特定提示特征的过拟合，提供平衡的对抗性反馈。
自底向上的多步细化：
- 与自顶向下的方法不同，NitroFusion允许用户使用相同的模型权重进行多步去噪，逐步提高结果质量。