SimpleAR：复旦大学联合字节推出的图像生成模型

0 10

SimpleAR项目简介

SimpleAR是由复旦大学和字节跳动团队共同开发的一种自回归视觉生成框架。该框架通过预训练、监督微调和强化学习等优化手段，在仅使用0.5亿参数的情况下，能够生成1024×1024分辨率的高质量图像，并在文本到图像的基准测试中取得了优异的成绩。SimpleAR不仅在图像生成的保真度和美学效果上表现出色，还通过推理加速技术实现了高效的图像生成，生成一张1024×1024图像的时间可缩短至约14秒。这一成果展示了自回归模型在视觉生成领域的巨大潜力，为未来多模态生成研究提供了新的方向。

SimpleAR主要功能

高质量图像生成：能够生成1024×1024分辨率的高保真图像，具有出色的美学效果和细节表现。
文本到图像的精确对齐：通过优化训练方法，模型能够根据文本提示生成与描述高度一致的图像内容。
高效的推理加速：应用多种优化技术，如vLLM和KV缓存，显著降低生成图像的时间，使其适用于实时应用场景。
多模态生成能力：将文本和视觉信息统一建模，支持基于文本条件的图像生成，为多模态内容创作提供强大支持。

SimpleAR技术原理

自回归生成框架：
- 将图像生成视为一个序列化过程，每个像素或标记基于前面的像素或标记生成。
- 使用预训练的视觉标记器将图像离散化为紧凑的视觉标记，然后通过自回归变换器建模这些标记的序列依赖性。
三阶段训练方法：
- 大规模预训练：在多样化的视觉数据集上进行预训练，以捕捉通用的视觉模式。
- 监督微调（SFT）：在高质量数据上进行微调，增强图像生成的保真度和对文本提示的遵循能力。
- 强化学习（RL）：使用Group Relative Policy Optimization（GRPO）技术，通过奖励函数（如CLIP）进一步优化多模态对齐和减少暴露偏差。
推理加速技术：
- KV缓存：存储之前计算的关键值嵌入，并在自回归解码步骤中重用，减少冗余计算。
- vLLM服务：通过优化内存管理和高效的注意力机制，实现高吞吐量和低延迟的推理。
- 投机性雅可比解码：通过并行采样多个候选标记序列并高效验证，减少自回归生成步骤。
统一的多模态架构：
- 将文本编码和视觉生成集成在一个统一的变换器架构中，避免了额外的文本编码器，提高了参数利用效率和多模态一致性。