UniToken：复旦大学联合美团等机构推出的视觉编码框架

0 90

UniToken项目简介

UniToken是由复旦大学智能信息处理实验室、上海智能视觉计算协同创新中心以及美团联合开发的自回归生成模型。该模型通过结合离散和连续的视觉编码方式，实现了视觉理解和图像生成任务的无缝集成。开发团队提出了一种统一的视觉编码框架，能够同时捕捉图像的高级语义和低级细节，从而为多种任务提供强大的视觉表示能力。UniToken在多个多模态理解与图像生成基准测试中取得了优异的性能，展现了其在多模态领域的强大潜力，为未来的研究奠定了坚实的基础。

UniToken主要功能

多模态理解：
- 能够处理图像内容并生成自然语言描述，支持问答、图像描述、文档理解等多种视觉理解任务。
- 支持多语言和多领域的视觉理解，例如数学图表、科学图形等。
图像生成：
- 根据文本描述生成高质量图像，支持复杂场景、细节描述和多对象生成。
- 提供多样化的生成结果，支持通过采样策略控制生成图像的多样性。
统一多模态任务处理：
- 同一模型架构能够同时支持视觉理解和图像生成任务，避免了任务切换带来的性能损失。
- 提供灵活的任务适配能力，能够根据输入数据类型自动选择合适的处理模式。

UniToken技术原理

统一视觉编码：
- 使用双编码器架构，结合SigLIP（连续视觉编码器）和VQTokenizer（离散视觉编码器），将图像编码为离散和连续的token组合。
- 连续编码器提取图像的高级语义特征，离散编码器捕捉图像的低级细节，两者结合提供丰富的视觉信息。
自回归生成框架：
- 基于自回归生成模型，通过下一个token预测的方式逐步生成输出序列。
- 支持文本和图像的生成任务，通过特定的解码器将生成的token转换为最终的输出。
高级视觉增强技术：
- 采用图像分块编码技术，将图像划分为多个网格并独立编码，支持不同形状的图像输入，提升视觉表示的细节捕捉能力。
- 微调SigLIP ViT，动态调整连续视觉表示，增强模型对图像语义的理解能力。
多阶段训练策略：
- 第一阶段：冻结LLM参数，训练SigLIP ViT和适配器，对齐连续视觉特征。
- 第二阶段：联合训练所有参数，包括ViT、适配器和LLM，使用大规模多模态数据进行优化。
- 第三阶段：进一步优化模型的指令遵循能力，使用高质量的对话数据和图像生成数据进行微调。
任务干扰与数据分布优化：
- 通过实验发现，统一的离散-连续视觉编码能够有效减少任务干扰，提升模型在多任务场景下的稳定性。
- 根据训练数据规模调整视觉理解和图像生成任务的数据比例，优化模型性能。