EliGen：阿里联合浙大等高校推出的实体级图像生成框架

0 20

EliGen简介

EliGen是由浙江大学控制科学与工程学院、阿里巴巴集团ModelScope团队以及华东师范大学共同开发的新型实体级图像生成框架。它通过区域注意力机制（Regional Attention）实现了对图像中各个实体的精细控制，能够将实体提示和任意形状的空间掩码无缝集成到扩散模型中。EliGen通过高质量的细粒度空间和语义实体级注释数据集进行训练，展现出在空间精度和图像质量方面的卓越性能，并提出了基于区域的噪声融合操作以扩展到图像修复任务。此外，EliGen还能够与IP-Adapter、In-Context LoRA和MLLM等开源模型无缝集成，解锁了更多创意应用的可能性。

EliGen主要功能

实体级图像生成控制：EliGen能够在生成图像时精确控制图像中各个实体的位置和属性，实现细粒度的图像设计。
图像修复：通过区域注意力机制和噪声融合操作，EliGen可以对图像中的特定区域进行修复，保持非修复区域的质量不变。
多实体图像生成：支持多个实体的同时生成和控制，能够处理复杂布局的图像生成任务。
与开源模型集成：EliGen能够与IP-Adapter、In-Context LoRA和MLLM等开源模型无缝集成，扩展了其在创意设计和图像编辑中的应用。

EliGen技术原理

区域注意力机制（Regional Attention）：
- 定义：一种扩展的注意力机制，能够将实体提示和任意形状的空间掩码无缝集成到扩散模型中。
- 实现：通过构建联合注意力掩码（包括实体-潜在、实体间和实体内注意力掩码），实现对每个实体的区域注意力控制。
- 优势：无需额外参数，能够处理任意形状的实体掩码，提供更高的灵活性和精度。
数据集构建：
- 高质量数据集：使用FLUX.1-dev生成图像，并通过Qwen2-VL进行图像描述和实体注释，构建了包含500k高质量注释训练样本的数据集。
- 细粒度注释：每个训练样本包含图像、全局提示、多个局部提示和相应的掩码，确保模型能够学习到精确的实体级控制。
LoRA微调：
- 定义：Low-Rank Adaptation，一种高效的微调方法。
- 实现：在DiT的每个块的线性层上应用LoRA权重，包括注意力前后的投影层和自适应LayerNorm中的线性层。
- 优势：加速收敛，确保模型能够快速适应新的控制任务。
噪声融合操作（Inpainting Fusion）：
- 定义：一种基于区域的噪声融合操作，用于图像修复任务。
- 实现：在每个去噪步骤中，将来自修复区域的实体潜在变量与非修复区域的背景潜在变量融合，确保修复区域的精确修改和背景区域的一致性。
- 优势：能够在单次前向传递中实现多实体修复，保持高质量的图像生成。