UniDisc:卡内基梅隆大学推出的多模态生成模型

UniDisc简介

UniDisc(Unified Multimodal Discrete Diffusion)是由卡内基梅隆大学团队提出的一种新型多模态生成模型。它基于离散扩散模型框架,能够同时理解和生成文本与图像。与传统的自回归(AR)模型相比,UniDisc在多模态生成任务中表现出显著优势。它通过随机掩盖token并学习恢复原始数据,有效解决了AR模型在图像生成时效率低下的问题,并且在推理过程中能够更好地控制生成质量和多样性。UniDisc在条件生成任务中表现优异,尤其是在使用分类器自由引导(CFG)时,能够生成更高质量和多样性的图像与文本。此外,UniDisc还具备强大的联合图像-文本修复能力,以及零样本图像编辑和灵活分辨率生成的能力,展现了广阔的应用前景。

UniDisc:卡内基梅隆大学推出的多模态生成模型

UniDisc主要功能

  1. 多模态联合生成
    • 文本生成:根据输入的图像生成描述性文本(如图像字幕)。
    • 图像生成:根据输入的文本生成对应的图像。
    • 联合生成:同时生成图像和文本,确保两者之间的语义一致性。
  2. 多模态修复(Inpainting)
    • 图像修复:在图像中缺失或损坏的部分进行修复。
    • 文本修复:在文本中缺失或损坏的部分进行修复。
    • 联合修复:同时修复图像和文本中的缺失部分,确保修复后的内容在语义上保持一致。
  3. 零样本编辑
    • 图像编辑:自动改进输入的图像,例如去除噪声或修复损坏的部分。
    • 文本编辑:自动改进输入的文本,例如纠正错误或优化表达。
    • 联合编辑:同时编辑图像和文本,确保两者在语义上保持一致。
  4. 灵活分辨率生成
    • 图像分辨率调整:在训练时使用较低分辨率的图像,但在推理时可以生成更高分辨率的图像。
    • 文本长度调整:根据需要生成不同长度的文本,支持灵活的文本生成任务。
  5. 多模态判别能力
    • 图像-文本检索:能够根据文本描述检索出与之匹配的图像,或根据图像检索出对应的文本描述。
    • 联合检索:在包含多个图像和文本的集合中,准确检索出语义上匹配的图像-文本对。

UniDisc技术原理

  1. 离散扩散模型
    • 前向扩散过程:通过逐步添加离散噪声(如随机掩盖token)将干净的数据逐步转化为噪声数据。
    • 逆向扩散过程:通过学习逐步去除噪声,恢复原始数据。UniDisc通过逆向扩散过程生成高质量的图像和文本。
  2. 联合标记化
    • 文本标记化:将文本转换为离散的token序列。
    • 图像标记化:将图像转换为离散的token序列,使用如lookup-free quantization(LFQ)等技术。
    • 联合词汇表:将文本和图像的token合并到一个联合词汇表中,使模型能够同时处理两种模态。
  3. 全自注意力机制
    • 双向解码器:使用双向解码器仅Transformer架构,允许模型在生成过程中同时考虑上下文信息。
    • RoPE嵌入:使用旋转位置嵌入(RoPE)技术,分别对图像和文本token进行位置编码,确保模型能够处理不同分辨率的图像和不同长度的文本。
  4. 分类器自由引导(CFG)
    • 无条件生成:在训练过程中,以一定概率将某个模态的所有token设置为掩盖token,使模型能够学习无条件生成。
    • 条件生成:在推理过程中,通过调整CFG权重,权衡生成内容的质量和多样性,实现高质量的条件生成。
  5. 灵活的噪声时间表
    • 噪声时间表:支持多种噪声时间表(如线性、余弦等),通过调整噪声时间表来优化训练过程。
    • 最小信噪比(Min-SNR)技巧:限制早期时间步的权重,加速模型的收敛速度。
  6. 高效训练和推理
    • 训练效率:尽管UniDisc的训练效率比AR模型低约13.2倍,但其推理效率更高,能够在更短的时间内生成更高质量的结果。
    • 推理策略:支持多种推理策略(如置信度采样、随机采样等),通过调整采样策略来优化生成质量和速度。

UniDisc应用场景

  1. 图像字幕生成
    • 功能:根据输入的图像自动生成描述性的文本字幕。
    • 应用:社交媒体平台、新闻媒体、视频内容创作等,帮助用户快速生成高质量的图像描述。
  2. 文本到图像生成
    • 功能:根据输入的文本描述生成对应的图像。
    • 应用:创意设计、广告制作、虚拟现实(VR)和增强现实(AR)内容创作,帮助设计师和开发者快速生成视觉内容。
  3. 多模态内容修复
    • 功能:修复图像和文本中的缺失或损坏部分。
    • 应用:老照片修复、文档修复、多媒体内容编辑,提升内容的完整性和质量。
  4. 零样本图像编辑
    • 功能:自动改进输入的图像,例如去除噪声或修复损坏的部分。
    • 应用:图像处理软件、社交媒体图片编辑、在线图像编辑工具,提升用户体验。
  5. 多模态内容检索
    • 功能:根据文本描述检索与之匹配的图像,或根据图像检索对应的文本描述。
    • 应用:搜索引擎、内容管理系统、多媒体数据库,提高检索的准确性和效率。
  6. 创意内容生成
    • 功能:根据用户输入的创意描述生成图像和文本内容。
    • 应用:创意写作、艺术设计、游戏开发,激发用户的创造力,提供灵感来源。

UniDisc项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...