HART：麻省理工学院、英伟达和清华联合推出的图像生成模型

0 90

HART简介

HART（Hybrid Autoregressive Transformer）是由麻省理工学院、英伟达和清华大学的联合研究团队开发的一种先进的自回归图像生成模型。该模型能够直接生成与扩散模型质量相当的1024×1024像素高分辨率图像，同时在效率上实现了显著提升。HART通过混合标记器分解连续潜在表示，结合离散和连续标记，利用可扩展分辨率的自回归变换器和轻量级残差扩散模块，以较低的计算成本实现了快速的图像生成。这一创新方法不仅提高了图像生成的效率，还为未来序列化视觉生成研究开辟了新的道路。

HART主要功能

高分辨率图像生成：HART能够直接生成1024×1024像素的高分辨率图像，这在以往的自回归模型中是难以实现的。
图像质量提升：通过混合标记器和残差扩散模块，HART在图像生成质量上与最先进的扩散模型相媲美。
效率优化：相比于扩散模型，HART在保持图像质量的同时，显著提高了生成效率，包括更快的推理速度和更高的吞吐量。
混合标记器：HART采用了混合标记器，能够处理离散和连续的潜在表示，这有助于捕捉图像的整体结构和细节信息。

HART技术原理

混合标记器（Hybrid Tokenizer）：
- 结合离散和连续的潜在表示，通过向量量化（VQ）将图像编码为离散标记，同时保留连续的残差标记来表示细节。
- 通过交替训练策略，使得模型能够处理连续特征，提高了生成的上限。
可扩展分辨率的自回归变换器（Scalable-Resolution Autoregressive Transformer）：
- 扩展了自回归模型的分辨率，允许模型直接生成高分辨率图像。
- 使用相对位置嵌入，支持不同分辨率下的生成，加速了模型在高分辨率下的收敛。
轻量级残差扩散模块（Lightweight Residual Diffusion Module）：
- 仅用37M参数，通过8个采样步骤来学习残差标记，有效捕捉图像的细微特征。
- 与完整的扩散模型相比，显著减少了参数量和计算成本。
效率增强（Efficiency Enhancements）：
- 在训练阶段，通过丢弃大部分标记并仅对少量标记进行监督，加速了训练过程并减少了内存使用。
- 在推理阶段，通过优化GPU内核调用，提高了执行效率。
混合自回归建模（Hybrid Autoregressive Modeling）：
- 将连续图像标记分解为离散标记和残差标记，分别由自回归变换器和残差扩散模块处理。
- 这种分解方法使得模型在生成图像时能够更有效地利用计算资源。