HiCo:360推出的用于布局到图像生成的 分层可控扩散模型

HiCo简介

HiCo是由360 AI Research团队开发的一种层次化可控扩散模型,旨在通过整合不同对象的边界框条件来增强布局到图像生成的控制能力。该模型通过其独特的条件分支结构,能够在复杂的布局中产生更和谐、整体的图像,同时具备灵活的可扩展性,允许切换检查点和集成插件如LoRA,以实现更精细的局部控制能力。HiCo模型在自然场景中的多目标可控布局生成任务上取得了突破性的性能,为文本到图像的生成领域带来了新的进展。

HiCo:360推出的用于布局到图像生成的 分层可控扩散模型

HiCo主要功能

  1. 布局到图像生成:HiCo模型能够根据对象的描述和空间位置生成高质量的图像。
  2. 空间解耦:通过层次化建模实现空间布局的解耦,以处理复杂的布局生成任务。
  3. 层次化控制:采用多分支结构来表示图像的层次结构,实现对前景和背景的精细控制。
  4. 灵活性和可扩展性:模型支持切换不同的检查点和集成插件,如LoRA和LCM,以适应不同的生成需求。
  5. 性能评估:通过引入HiCo-7K基准数据集,可以客观评估自然场景中的布局图像生成性能。
  6. 多目标控制:能够在生成过程中同时控制多个目标的布局和外观。

HiCo技术原理

  1. 扩散模型:HiCo基于扩散模型,该模型通过迭代去噪从随机噪声合成图像。
  2. 对象可分离的条件分支结构:模型设计了多个分支网络来独立处理不同的布局条件,并通过Fuse Net进行聚合。
  3. 层次化特征提取:通过权重共享的分支结构提取层次化的布局特征,并在上采样阶段进行特征融合。
  4. Fuse Net:一个非参数化的融合模块,通过掩码将不同区域的内容解耦,并在UNet模型的外部特征中实现特征融合。
  5. 空间位置和文本控制:模型能够根据文本提示和空间位置信息生成图像,实现对图像中对象位置和外观的精确控制。
  6. 数据集和基准:使用HiCo-7K基准数据集进行训练和评估,该数据集从GRIT-20M数据集中提取并经过手动清理,以确保数据质量和相关性。
  7. 快速生成插件兼容性:HiCo模型与快速生成插件如LCM-LoRA和Lightning-UNet兼容,以实现高分辨率图像的快速生成。

HiCo应用场景

  1. 广告和营销材料设计:HiCo可以生成具有特定布局和风格要求的广告图像,提高营销材料的视觉吸引力。
  2. 数字艺术创作:艺术家和设计师可以使用HiCo来创作数字艺术作品,通过精确控制图像布局来实现创意构思。
  3. 在线内容生成:内容创作者可以利用HiCo快速生成具有复杂布局的博客或社交媒体帖子的图像,提高内容的吸引力。
  4. 游戏和虚拟现实:在游戏开发和虚拟现实应用中,HiCo可以用来生成具有复杂场景布局的游戏环境和虚拟世界。
  5. 教育和培训材料:HiCo可以用于生成教学材料中的图解和图表,帮助学生更好地理解和记忆复杂的概念。
  6. 电子商务产品展示:电商平台可以利用HiCo生成产品展示图,通过精确控制产品在图像中的位置和角度,提升产品的视觉呈现效果。

HiCo项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...