UniFluid：实现高质量的图像生成和强大的视觉理解能力

0 90

UniFluid简介

UniFluid 是由 Google DeepMind 和 MIT 的联合开发团队提出的一种创新的统一自回归框架，旨在结合视觉生成和理解任务。该模型通过处理多模态图像和文本输入，生成离散文本标记和连续图像标记，利用单一架构实现高质量的图像生成和强大的视觉理解能力。开发团队基于预训练的 Gemma 模型系列，通过精心设计的训练策略，使 UniFluid 在图像生成和理解任务上均展现出与单一任务模型相当甚至更优的性能，并在图像编辑、视觉问答等下游任务中表现出色，为多模态系统的发展提供了新的方向。

UniFluid主要功能

视觉生成：
- 能够根据文本提示生成高质量的图像。
- 支持多种生成任务，如美学优化后的图像生成和基于给定图像及文本提示的图像编辑。
视觉理解：
- 可以处理视觉问答（VQA）任务，根据图像和问题生成准确的答案。
- 支持图像描述（captioning），为图像生成自然语言描述。
多模态融合：
- 在单一架构中联合处理视觉生成和理解任务，实现两种任务的协同优化。
- 能够在视觉生成和理解任务之间进行无缝切换，支持多种下游多模态任务。

UniFluid技术原理

自回归框架：
- 采用自回归模型架构，将图像和文本输入嵌入到同一空间的标记中，通过“下一个标记预测”来实现生成和理解任务。
- 使用统一的解码器架构，将文本和图像标记作为长序列的一部分进行建模。
连续视觉标记：
- 使用连续变分自编码器（VAE）将图像编码为连续视觉标记，避免了向量量化（VQ）的限制，能够更精细地表示图像内容。
- 通过扩散模型（diffusion model）对生成的连续视觉标记进行解码，生成高质量图像。
多模态输入处理：
- 文本输入通过 SentencePiece tokenizer 处理，生成离散文本标记。
- 图像输入通过 SigLIP 图像编码器提取高级视觉特征，用于理解任务。
任务特定的预测头：
- 为图像生成任务设计了扩散头，将图像标记的 logits 转换为连续概率分布。
- 为文本生成任务设计了分类头，将文本标记的 logits 转换为分类概率分布。
损失函数平衡：
- 通过调整图像生成损失和文本理解损失之间的权重（λ），在生成和理解任务之间实现平衡。
- 在训练过程中，通过随机顺序生成图像标记来提升生成质量，同时保持理解任务的性能。
强大的预训练模型：
- 基于预训练的 Gemma 模型系列，利用大规模文本语料库进行预训练，增强了模型的多模态理解能力。
- 使用更强大的预训练 LLM（如 Gemma-2）作为背景模型，显著提升了视觉生成和理解的性能。