APT:能够在单步中生成高质量的图像和视频

APT简介

Adversarial Post-Training(APT)是由字节跳动推出的一种创新方法,旨在加速扩散模型,实现图像和视频的一站式生成。该方法通过对抗性训练直接在真实数据上对预训练的扩散模型进行微调,而非依赖于教师模型生成的目标。APT引入了多项关键设计,包括生成器的确定性蒸馏初始化、判别器的架构改进以及近似的R1正则化目标,以稳定训练过程。实验表明,APT能够在单步中生成高质量的图像和视频,其性能在视觉保真度方面可与或优于原始预训练扩散模型,尽管在结构完整性和文本对齐方面存在一些退化。字节跳动种子团队的这一成果为高分辨率视频生成领域带来了重大突破,展示了单步生成的潜力。

APT:能够在单步中生成高质量的图像和视频

APT主要功能

  1. 加速扩散模型:APT能够显著减少扩散模型的生成步骤,将原本需要多次迭代的生成过程简化为一步,从而大幅提高生成效率,降低计算成本。
  2. 高质量图像和视频生成:该方法能够在单步中生成高质量的图像和视频,其视觉保真度可与或优于传统的多步扩散模型生成的结果,特别适用于需要快速生成大量内容的场景。
  3. 高分辨率视频生成:APT是首个实现高分辨率(1280×720 24fps)视频单步生成的方法,能够生成长达两秒的视频,为视频生成领域带来了重大突破,拓展了扩散模型在视频内容创作中的应用范围。
  4. 超越预训练模型:与传统的蒸馏方法不同,APT直接在真实数据上进行对抗性训练,不仅避免了预计算视频样本的高昂成本,还能够在某些评估标准上超越预训练的扩散模型,特别是在提高现实感、解决曝光问题和增强细节方面。

APT技术原理

  1. 对抗性训练(Adversarial Training)
    • APT采用对抗性训练框架,通过生成器(G)和判别器(D)之间的博弈来优化模型。生成器旨在生成能够欺骗判别器的样本,而判别器则努力区分真实样本和生成样本。这种对抗过程促使生成器不断学习和改进,以生成更逼真的内容。
    • 与传统的生成对抗网络(GAN)类似,APT的对抗性训练目标是通过最小化生成器的损失函数(LG)和最大化判别器的损失函数(LD)来实现的。
  2. 预训练模型初始化
    • APT使用预训练的扩散模型(如扩散变换器DiT)作为初始化,而不是将其作为教师模型来生成目标。这种初始化方法为生成器提供了一个有效的起点,使其能够在对抗性训练中更快地收敛。
    • 生成器通过确定性蒸馏进行初始化,采用离散时间一致性蒸馏和均方误差损失,预测速度场并转换为样本预测。
  3. 判别器设计
    • 判别器使用预训练的扩散网络进行初始化,并在潜在空间中操作。它包含36层变换器块,具有强大的学习能力。
    • 引入新的交叉注意力仅变换器块,使用单个可学习令牌作为查询,以产生单个标量logit输出。这种设计增强了生成样本的结构和组成。
    • 判别器直接使用原始样本(无噪声干扰),避免了引入伪影,但为了避免训练崩溃,提出使用不同时间步值的集成作为输入。
  4. 近似R1正则化
    • 为了稳定大规模对抗性训练,APT提出了一种近似的R1正则化损失。传统的R1正则化需要计算高阶梯度,这在大规模变换器模型中计算成本高昂且不被现代深度学习软件支持。
    • 近似的R1损失通过在真实数据上添加小方差的高斯噪声,鼓励判别器在真实数据及其扰动之间的预测保持一致,从而减少判别器在真实数据上的梯度,实现与原始R1正则化相同的目标。
  5. 训练细节
    • APT首先在图像数据上进行训练,然后在视频数据上进行训练。图像训练使用1024px分辨率,视频训练使用1280×720分辨率,剪辑为2秒24fps。
    • 使用指数移动平均(EMA)衰减率和RMSProp优化器进行训练,整个训练过程采用BF16混合精度,以提高训练效率和稳定性。

APT应用场景

  1. 内容创作:快速生成高质量的图像和视频,为艺术家、设计师和内容创作者提供灵感和素材,加速创作流程。
  2. 视频编辑:在视频制作中,APT可以用于生成特定场景或过渡效果,提高视频编辑的效率和创意性。
  3. 游戏开发:实时生成游戏中的环境、角色和动画,提升游戏的视觉效果和沉浸感,同时减少开发时间和资源。
  4. 广告制作:快速生成吸引人的广告图像和视频,满足广告行业的快速迭代和高创意需求。
  5. 教育与培训:生成教育视频和模拟场景,增强学习体验,使复杂的概念更易于理解和记忆。
  6. 社交媒体:用户可以利用APT生成个性化的图像和短视频,丰富社交媒体内容,提高用户参与度和互动性。

APT项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...