UniDisc：卡内基梅隆大学推出的多模态生成模型

0 10

UniDisc简介

UniDisc（Unified Multimodal Discrete Diffusion）是由卡内基梅隆大学团队提出的一种新型多模态生成模型。它基于离散扩散模型框架，能够同时理解和生成文本与图像。与传统的自回归（AR）模型相比，UniDisc在多模态生成任务中表现出显著优势。它通过随机掩盖token并学习恢复原始数据，有效解决了AR模型在图像生成时效率低下的问题，并且在推理过程中能够更好地控制生成质量和多样性。UniDisc在条件生成任务中表现优异，尤其是在使用分类器自由引导（CFG）时，能够生成更高质量和多样性的图像与文本。此外，UniDisc还具备强大的联合图像-文本修复能力，以及零样本图像编辑和灵活分辨率生成的能力，展现了广阔的应用前景。

UniDisc主要功能

多模态联合生成：
- 文本生成：根据输入的图像生成描述性文本（如图像字幕）。
- 图像生成：根据输入的文本生成对应的图像。
- 联合生成：同时生成图像和文本，确保两者之间的语义一致性。
多模态修复（Inpainting）：
- 图像修复：在图像中缺失或损坏的部分进行修复。
- 文本修复：在文本中缺失或损坏的部分进行修复。
- 联合修复：同时修复图像和文本中的缺失部分，确保修复后的内容在语义上保持一致。
零样本编辑：
- 图像编辑：自动改进输入的图像，例如去除噪声或修复损坏的部分。
- 文本编辑：自动改进输入的文本，例如纠正错误或优化表达。
- 联合编辑：同时编辑图像和文本，确保两者在语义上保持一致。
灵活分辨率生成：
- 图像分辨率调整：在训练时使用较低分辨率的图像，但在推理时可以生成更高分辨率的图像。
- 文本长度调整：根据需要生成不同长度的文本，支持灵活的文本生成任务。
多模态判别能力：
- 图像-文本检索：能够根据文本描述检索出与之匹配的图像，或根据图像检索出对应的文本描述。
- 联合检索：在包含多个图像和文本的集合中，准确检索出语义上匹配的图像-文本对。

UniDisc技术原理

离散扩散模型：
- 前向扩散过程：通过逐步添加离散噪声（如随机掩盖token）将干净的数据逐步转化为噪声数据。
- 逆向扩散过程：通过学习逐步去除噪声，恢复原始数据。UniDisc通过逆向扩散过程生成高质量的图像和文本。
联合标记化：
- 文本标记化：将文本转换为离散的token序列。
- 图像标记化：将图像转换为离散的token序列，使用如lookup-free quantization（LFQ）等技术。
- 联合词汇表：将文本和图像的token合并到一个联合词汇表中，使模型能够同时处理两种模态。
全自注意力机制：
- 双向解码器：使用双向解码器仅Transformer架构，允许模型在生成过程中同时考虑上下文信息。
- RoPE嵌入：使用旋转位置嵌入（RoPE）技术，分别对图像和文本token进行位置编码，确保模型能够处理不同分辨率的图像和不同长度的文本。
分类器自由引导（CFG）：
- 无条件生成：在训练过程中，以一定概率将某个模态的所有token设置为掩盖token，使模型能够学习无条件生成。
- 条件生成：在推理过程中，通过调整CFG权重，权衡生成内容的质量和多样性，实现高质量的条件生成。
灵活的噪声时间表：
- 噪声时间表：支持多种噪声时间表（如线性、余弦等），通过调整噪声时间表来优化训练过程。
- 最小信噪比（Min-SNR）技巧：限制早期时间步的权重，加速模型的收敛速度。
高效训练和推理：
- 训练效率：尽管UniDisc的训练效率比AR模型低约13.2倍，但其推理效率更高，能够在更短的时间内生成更高质量的结果。
- 推理策略：支持多种推理策略（如置信度采样、随机采样等），通过调整采样策略来优化生成质量和速度。

UniDisc应用场景

图像字幕生成：
- 功能：根据输入的图像自动生成描述性的文本字幕。
- 应用：社交媒体平台、新闻媒体、视频内容创作等，帮助用户快速生成高质量的图像描述。
文本到图像生成：
- 功能：根据输入的文本描述生成对应的图像。
- 应用：创意设计、广告制作、虚拟现实（VR）和增强现实（AR）内容创作，帮助设计师和开发者快速生成视觉内容。
多模态内容修复：
- 功能：修复图像和文本中的缺失或损坏部分。
- 应用：老照片修复、文档修复、多媒体内容编辑，提升内容的完整性和质量。
零样本图像编辑：
- 功能：自动改进输入的图像，例如去除噪声或修复损坏的部分。
- 应用：图像处理软件、社交媒体图片编辑、在线图像编辑工具，提升用户体验。
多模态内容检索：
- 功能：根据文本描述检索与之匹配的图像，或根据图像检索对应的文本描述。
- 应用：搜索引擎、内容管理系统、多媒体数据库，提高检索的准确性和效率。
创意内容生成：
- 功能：根据用户输入的创意描述生成图像和文本内容。
- 应用：创意写作、艺术设计、游戏开发，激发用户的创造力，提供灵感来源。