Lumina-mGPT：利用多模态生成预训练生成高逼真图像

0 30

Lumina-mGPT简介

Lumina-mGPT是由上海人工智能实验室和香港中文大学的联合研究团队开发的一款先进的多模态自回归模型。它通过多模态生成预训练（mGPT），利用大量文本和图像序列，学习到广泛的多模态表示能力，从而在文本到图像的生成任务上展现出卓越的性能。这一模型不仅能够生成任何分辨率下的高逼真度图像，还保持了处理多种视觉和语言任务的通用性。此外，Lumina-mGPT的设计还包括灵活的渐进式监督微调和全能力监督微调策略，进一步解锁了模型在高美学图像合成和多任务统一方面的潜力。

Lumina-mGPT主要功能

多模态任务处理：能够执行包括视觉生成、视觉识别和视觉-语言任务在内的多种任务。
灵活的图像生成：从文本描述生成各种分辨率的高逼真度图像，具有任意比例的灵活性。
渐进式监督微调（FP-SFT）：在不同分辨率的图像上逐步提高生成质量，从低分辨率到高分辨率。
全能力任务统一（Omni-SFT）：将模型转化为一个基础模型，能够无缝实现多种任务的统一。
高美学图像合成：在任何分辨率下生成具有高审美价值的图像。
多语言和多模态输入理解：能够理解和处理包括文本、图像在内的多种输入模式。

Lumina-mGPT技术原理

预训练的解码器模型：使用预训练的解码器变换器（decoder-only transformer）作为统一框架，处理多模态token序列。
多模态生成预训练（mGPT）：通过在大规模交错的文本-图像序列上进行下一个token预测，学习广泛的多模态能力。
灵活的高分辨率解码：采用先进的架构设计，包括查询-键归一化（QKNorm）和旋转位置嵌入（RoPE），实现灵活的高分辨率图像生成。
无歧义图像表示（Uni-Rep）：引入高度/宽度指示符和行结束标记，消除了原始1D图像token序列的2D形状歧义。
分类器自由引导（Classifier-Free Guidance, CFG）：在推理过程中使用，提高生成样本的质量和文本对齐度。
不同解码超参数：针对图像和文本的不同解码阶段，使用不同的超参数，以优化生成结果。
注意力可视化：通过可视化平均注意力logits，理解模型在文本到图像生成过程中的采样行为。
VQ-VAE重构质量：使用VQ-VAE作为图像分词器，将连续图像转换为离散token表示，并通过Lumina-mGPT进一步优化这些token，提高重构质量。