Liquid：字节联合港大等推出的多模态生成框架

0 20

Liquid简介

Liquid 是由华中科技大学、字节跳动公司以及香港大学联合开发的一种创新的多模态生成框架。它通过将图像和文本统一为离散的代码嵌入到共享的特征空间中，使单一的大型语言模型（LLM）能够无缝处理视觉理解和生成任务。与传统方法不同，Liquid 不依赖外部预训练的视觉模块，而是直接在统一的视觉-语言空间中进行训练和推理，显著降低了系统复杂性并提高了扩展性。开发团队通过一系列实验验证了 Liquid 在多模态任务中的高效性能，证明其在视觉生成和理解任务上均表现出色，展现了强大的可扩展性和作为通用多模态生成器的潜力。

Liquid主要功能

多模态生成与理解：
- Liquid能够同时处理视觉生成（如根据文本描述生成图像）和视觉理解（如对图像内容进行描述或回答相关问题）任务。
- 它支持纯文本任务，同时在多模态任务中表现出色，无需牺牲语言能力。
高效扩展与训练：
- Liquid基于现有的大型语言模型（LLM），通过扩展词汇表和少量高质量数据的继续训练，快速获得视觉生成能力，节省了大量训练成本。
- 它支持从小型（0.5B）到超大型（32B）模型的无缝扩展，展现出与LLM类似的扩展行为。
统一的视觉-语言空间：
- Liquid通过将图像编码为离散代码，并与文本标记共享相同的词汇表和嵌入空间，实现了视觉和语言的无缝融合。
- 这种统一的表示方式使得视觉生成和理解任务能够相互促进，提升了模型的多模态性能。
灵活的视觉生成：
- Liquid支持动态调整生成图像的分辨率和细节，能够根据输入文本提示生成不同尺寸和风格的图像。
- 它在图像生成质量和语义一致性上均表现出色，甚至超过了部分扩散模型。

Liquid技术原理

图像分词与离散化：
- 使用VQGAN（Vector Quantized Generative Adversarial Network）作为图像分词器，将图像编码为离散的代码序列，类似于文本中的单词或标记。
- 这些离散代码与文本标记共享相同的词汇表空间，使得图像和文本能够在同一模型中被统一处理。
统一的特征空间：
- Liquid将图像和文本的离散代码嵌入到一个共享的特征空间中，消除了视觉和语言模态之间的隔阂。
- 模型通过预测下一个标记的方式（next-token prediction）进行训练和生成，无论是文本还是图像，都使用相同的训练目标和推理机制。
基于LLM的多模态建模：
- Liquid直接在LLM的基础上扩展，无需额外的视觉模块或复杂的架构调整。
- 它利用LLM的强语义理解能力和生成能力，通过少量的多模态数据继续训练，快速获得视觉生成和理解能力。
混合训练与任务协同：
- Liquid通过混合文本数据、图像生成数据和视觉理解数据进行训练，使得模型在不同任务之间共享优化目标。
- 实验表明，增加视觉生成数据可以提升视觉理解能力，反之亦然，这种协同作用显著提升了模型的多模态性能。
可扩展性与性能优化：
- Liquid通过扩展模型规模和训练计算量，逐步提升视觉生成和语言任务的性能。
- 随着模型规模的增大，视觉生成和语言任务之间的权衡逐渐消失，模型能够更高效地处理多模态任务。