OminiControl:新加坡国立大学推出的高效图像条件控制框架

OminiControl简介

OminiControl是由新加坡国立大学的研究团队开发的一种新型图像生成框架,它通过极少量的额外参数(仅0.1%)将图像条件集成到预训练的Diffusion Transformer(DiT)模型中,实现了对图像生成过程的高度控制。该框架不仅有效且高效地处理包括主题驱动生成和空间对齐条件(如边缘、深度等)在内的广泛图像条件任务,还通过训练在DiT自身生成的图像上,特别有利于主题驱动的生成。此外,该团队还发布了Subjects200K数据集,包含超过20万个身份一致的图像,以促进未来在主题一致生成任务上的进一步研究。

OminiControl:新加坡国立大学推出的高效图像条件控制框架

OminiControl主要功能

  1. 图像条件控制集成:OminiControl能够将图像条件集成到预训练的Diffusion Transformer(DiT)模型中,实现对生成图像的精确控制。
  2. 参数高效性:该框架仅增加0.1%的额外参数,即可实现图像条件的有效集成,提高了模型的参数效率。
  3. 统一控制框架:提供了一个能够同时处理空间对齐和非空间对齐控制任务的统一框架,包括主题驱动生成和空间对齐条件(如边缘、深度等)。
  4. 多模态注意力交互:通过直接的多模态注意力交互,实现了条件和生成令牌之间的高效信息交换和控制信号传播。
  5. 条件强度因子:允许在推理过程中手动调整条件图像的影响,提供了条件图像效果的精确控制。
  6. Subjects200K数据集:发布超过20万个身份一致的图像数据集,支持主题一致生成任务的研究。

OminiControl技术原理

  1. 参数重用机制:OminiControl利用DiT模型已有的VAE编码器处理条件图像,通过增加可学习的位置嵌入,将编码特征与潜在噪声一起集成到去噪网络中。
  2. 多模态注意力处理器:DiT模型的灵活多模态注意力处理器能够处理图像条件,实现条件和生成令牌之间的直接交互。
  3. 自适应位置嵌入:为了确保条件图像令牌与噪声图像令牌之间的有效交互,OminiControl采用自适应位置嵌入技术,根据任务的不同调整位置索引。
  4. 条件信号整合:通过将条件图像令牌与噪声图像令牌和文本令牌统一序列化,OminiControl允许条件信号在整个Transformer堆栈中影响,实现对输出的精细控制。
  5. 基于DiT的模型实现:OminiControl在高性能的DiT结构化扩散模型FLUX.1-dev上实现,利用其大规模参数优势进行条件图像控制。
  6. 数据合成管道:开发了高效的数据合成管道,用于生成高质量、身份一致的图像对,以支持OminiControl的训练和评估。

OminiControl应用场景

  1. 图像编辑与合成:利用OminiControl,可以根据特定的图像条件,如边缘或深度信息,对图像进行编辑和合成,实现精确的视觉效果调整。
  2. 主题驱动生成:在需要生成与特定主题或对象一致的图像时,OminiControl能够根据提供的参考图像和文本描述生成新的图像内容。
  3. 风格迁移:通过图像条件控制,OminiControl可以应用于风格迁移任务,将一种风格或特征从一个图像转移到另一个图像。
  4. 图像修复与增强:在图像修复领域,OminiControl可以用于去除图像中的噪声、修复损坏的部分,或增强图像的某些特征。
  5. 艺术创作辅助:艺术家和设计师可以利用OminiControl根据特定的视觉条件创作新的作品,如根据草图生成详细的艺术图像。
  6. 数据增强:在机器学习中,OminiControl可以用于生成训练数据,通过添加或修改图像条件来扩充数据集,提高模型的泛化能力。

OminiControl项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...