3DIS-FLUX：哈佛联合浙江大学推出的多实例生成框架

0 20

3DIS-FLUX 简介

3DIS-FLUX 是由浙江大学 RELER 实验室和哈佛大学 DBMI 实验室联合开发的一种新型多实例生成（MIG）方法，旨在提升文本到图像生成的可控性和图像质量。该方法基于深度驱动的解耦实例合成（3DIS）框架，通过将图像生成过程分为场景深度图生成和细节渲染两个阶段，实现了对实例位置和属性的精确控制。3DIS-FLUX 引入了最新的扩散变换器模型 FLUX，结合细节渲染器对联合注意力机制进行优化，从而显著提高了生成图像的质量和实例成功率。实验表明，3DIS-FLUX 在性能和图像质量上超越了当前的训练无关方法和基于适配器的最新技术，展现了其强大的适应性和扩展性。

3DIS-FLUX 主要功能

多实例生成（MIG）：
- 能够根据用户定义的布局和描述，同时生成多个实例（如物体或场景元素），并确保每个实例的位置和属性与用户需求一致。
- 提供高精度的实例控制，适用于需要复杂场景合成的文本到图像生成任务。
高质量图像渲染：
- 利用先进的扩散模型 FLUX，生成高质量、高分辨率的图像，显著提升视觉效果。
- 通过细节渲染器实现对每个实例的细粒度属性（如颜色、形状等）的精确渲染。
训练无关的细节渲染：
- 无需对每个新模型重新训练适配器，节省计算资源，尤其适合资源有限的用户。
- 兼容多种基础模型（如 FLUX、SDXL 等），具有广泛的适用性。
灵活的框架扩展性：
- 支持快速集成新的扩散模型，能够适应不断发展的生成模型技术。
- 可与现有的适配器方法结合使用，进一步提升性能。

3DIS-FLUX 技术原理

深度驱动的解耦实例合成（3DIS）框架：
- 将图像生成过程分为两个阶段：场景深度图生成和细节渲染。
- 首先通过布局到深度的模型生成场景深度图，确定每个实例的位置；然后利用深度图指导细节渲染，确保生成图像符合用户布局。
FLUX 模型的应用：
- FLUX 是一种基于扩散变换器（DiT）的模型，具有比传统 U-Net 架构更强大的图像生成能力和文本控制能力。
- 通过 FLUX 模型的深度控制功能，实现从深度图到高质量 RGB 图像的转换。
细节渲染器（Detail Renderer）：
- 在 FLUX 的联合注意力机制中，通过控制图像嵌入和文本嵌入的注意力掩码，确保每个实例的图像标记只关注其对应的文本标记，避免属性混淆。
- 对文本嵌入的注意力进行严格约束，防止在多实例场景中引入错误的语义信息。
训练无关的细节渲染机制：
- 利用预训练的深度控制模型（如 FLUX）进行细节渲染，无需针对每个新模型重新训练适配器。
- 通过调整注意力机制和深度图引导，实现高质量的实例渲染，同时保持生成模型的原始能力。
优化的注意力控制：
- 在早期生成步骤中，限制每个实例的图像标记只能关注其自身的图像标记和文本标记，确保实例属性的准确性。
- 在后期步骤中，逐渐放松约束，允许图像标记关注全局文本标记，以提升生成图像的整体质量。