EliGen:阿里联合浙大等高校推出的实体级图像生成框架

EliGen简介

EliGen是由浙江大学控制科学与工程学院、阿里巴巴集团ModelScope团队以及华东师范大学共同开发的新型实体级图像生成框架。它通过区域注意力机制(Regional Attention)实现了对图像中各个实体的精细控制,能够将实体提示和任意形状的空间掩码无缝集成到扩散模型中。EliGen通过高质量的细粒度空间和语义实体级注释数据集进行训练,展现出在空间精度和图像质量方面的卓越性能,并提出了基于区域的噪声融合操作以扩展到图像修复任务。此外,EliGen还能够与IP-Adapter、In-Context LoRA和MLLM等开源模型无缝集成,解锁了更多创意应用的可能性。

EliGen:阿里联合浙大等高校推出的实体级图像生成框架

EliGen主要功能

  1. 实体级图像生成控制:EliGen能够在生成图像时精确控制图像中各个实体的位置和属性,实现细粒度的图像设计。
  2. 图像修复:通过区域注意力机制和噪声融合操作,EliGen可以对图像中的特定区域进行修复,保持非修复区域的质量不变。
  3. 多实体图像生成:支持多个实体的同时生成和控制,能够处理复杂布局的图像生成任务。
  4. 与开源模型集成:EliGen能够与IP-Adapter、In-Context LoRA和MLLM等开源模型无缝集成,扩展了其在创意设计和图像编辑中的应用。

EliGen技术原理

  1. 区域注意力机制(Regional Attention)
    • 定义:一种扩展的注意力机制,能够将实体提示和任意形状的空间掩码无缝集成到扩散模型中。
    • 实现:通过构建联合注意力掩码(包括实体-潜在、实体间和实体内注意力掩码),实现对每个实体的区域注意力控制。
    • 优势:无需额外参数,能够处理任意形状的实体掩码,提供更高的灵活性和精度。
  2. 数据集构建
    • 高质量数据集:使用FLUX.1-dev生成图像,并通过Qwen2-VL进行图像描述和实体注释,构建了包含500k高质量注释训练样本的数据集。
    • 细粒度注释:每个训练样本包含图像、全局提示、多个局部提示和相应的掩码,确保模型能够学习到精确的实体级控制。
  3. LoRA微调
    • 定义:Low-Rank Adaptation,一种高效的微调方法。
    • 实现:在DiT的每个块的线性层上应用LoRA权重,包括注意力前后的投影层和自适应LayerNorm中的线性层。
    • 优势:加速收敛,确保模型能够快速适应新的控制任务。
  4. 噪声融合操作(Inpainting Fusion)
    • 定义:一种基于区域的噪声融合操作,用于图像修复任务。
    • 实现:在每个去噪步骤中,将来自修复区域的实体潜在变量与非修复区域的背景潜在变量融合,确保修复区域的精确修改和背景区域的一致性。
    • 优势:能够在单次前向传递中实现多实体修复,保持高质量的图像生成。

EliGen应用场景

  1. 创意设计:艺术家和设计师可以利用EliGen精确控制图像中的各个元素,实现复杂的创意构图和风格化设计。
  2. 广告与营销:广告公司可以通过EliGen快速生成符合特定需求的广告图像,精准放置产品或品牌元素,提升视觉吸引力。
  3. 游戏开发:游戏开发者可以利用EliGen生成游戏场景中的角色、道具和环境,实现高度定制化的游戏视觉效果。
  4. 影视制作:在影视特效和动画制作中,EliGen可用于快速生成概念图和背景,帮助艺术家快速实现创意。
  5. 教育与培训:教育工作者可以利用EliGen生成教学材料中的图像,例如科学插图、历史场景等,增强教学效果。
  6. 虚拟现实与增强现实:在VR和AR应用中,EliGen可以生成逼真的虚拟环境和交互对象,提升用户体验。

EliGen项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...