X-Fusion：Adobe等推出的创新多模态框架

0 90

X-Fusion项目简介

X-Fusion 是由加州大学洛杉矶分校、威斯康星大学麦迪逊分校和 Adobe Research 的研究团队共同开发的一种创新框架，旨在将预训练的大型语言模型（LLMs）扩展到多模态任务中。该框架采用双塔架构，冻结语言模型的参数以保留其强大的语言能力，同时引入独立的视觉塔来处理视觉信息，从而实现图像理解和生成任务。X-Fusion 在图像到文本和文本到图像的任务上表现出色，优于其他架构。团队还通过系统化的实验研究了训练数据对性能的影响，提出了优化多模态学习的策略。X-Fusion 的开发为构建高效统一的多模态模型提供了新的思路和方法。

X-Fusion主要功能

多模态任务支持：
- 支持图像到文本（I2T）任务，例如生成图像的详细描述（如图说生成）。
- 支持文本到图像（T2I）任务，根据文本描述生成高质量图像。
- 能够同时处理语言和视觉信息，实现语言生成与视觉生成的统一。
语言能力保留：
- 在引入视觉能力的同时，保留了预训练语言模型（LLM）的原有语言生成能力，不会因多模态训练而退化。
高效扩展与灵活性：
- 通过双塔架构，能够灵活扩展到其他模态（如音频）。
- 可以根据需求调整视觉塔和语言塔的设计，控制新参数的数量。
下游任务适配：
- 经过预训练后，可以进一步微调以适应多种下游任务，例如视觉问答（VQA）、图像编辑、目标定位等。

X-Fusion技术原理

双塔架构：
- 语言塔：冻结预训练的大型语言模型（LLM）的权重，保留其语言生成和理解能力。
- 视觉塔：引入独立的可训练视觉塔，处理视觉输入（如图像），并将其与语言塔的特征对齐。
模态特定权重：
- 视觉塔的每一层都有独立的权重，用于处理视觉信息，避免直接修改语言塔的参数。
特征对齐与融合：
- 在中间层对齐文本和视觉特征，确保两种模态的信息能够有效交互。
- 可选的 X-Fuse 操作进一步融合来自两个塔的特征，以提升性能。
数据驱动的训练策略：
- 使用干净的图像进行视觉理解任务的训练，以减少噪声对性能的影响。
- 通过调整图像生成和理解任务的数据比例，优化模型在两种任务上的性能。
- 对于小模型，通过与预训练的视觉表示（如 CLIP）对齐，加速训练和提升性能。
扩散模型与自回归结合：
- 使用扩散模型（Diffusion Model）进行图像生成任务，通过逐步去噪生成高质量图像。
- 使用自回归语言建模（Autoregressive Language Modeling）进行文本生成任务，支持条件文本生成。
可扩展性与灵活性：
- 视觉塔和语言塔可以设计为不同的架构，以适应不同的任务需求。
- 框架支持多种模态的扩展，例如通过引入音频塔来处理音频信息。