DynamicControl：腾讯等推出的多条件自适应文本到图像生成框架

0 60

DynamicControl简介

DynamicControl是由腾讯联合南洋理工、浙大等研究机构推出的一种创新框架，旨在提升文本到图像生成任务中的条件控制能力。该框架通过动态组合多样的控制信号，支持自适应选择不同数量和类型的条件，以生成更可靠和详细的图像。通过双循环控制器和多模态大型语言模型（MLLM），DynamicControl能够优化条件排序并学习动态视觉特征，从而增强对生成图像的控制。实验结果表明，DynamicControl在控制性、生成质量和可组合性方面均优于现有方法。

DynamicControl主要功能

动态条件选择：DynamicControl能够根据输入的文本提示和条件动态选择最合适的控制信号组合，以生成更符合预期的图像。
双循环控制器：利用预训练模型对输入条件进行初步评分和排序，评估条件与源图像的相似性。
条件评估器：集成大型多模态语言模型（MLLM），对条件进行进一步的优化排序，提升条件选择的合理性。
多控制适配器：并行处理多个控制条件，学习从动态视觉条件中提取的特征图，并将其整合以调节生成过程。
增强控制力：通过以上机制，增强对生成图像的控制，提高图像合成的质量和一致性。

DynamicControl技术原理

双循环控制器：
- 条件循环一致性：评估提取的条件与输入条件之间的相似性。
- 图像循环一致性：计算生成图像与源图像之间的像素级相似性，确保生成图像的质量。
条件评估器：
- 多模态大型语言模型（MLLM）：使用MLLM处理条件和文本提示，生成条件排序。
- 嵌入转换：通过Q-Former将MLLM的隐藏状态转换为与扩散模型兼容的嵌入表示。
多控制适配器：
- 特征提取：从文本提示和动态空间条件中提取多控制嵌入。
- Mixture-of-Experts（MOE）：并行捕获不同低级视觉条件的特征。
- 交叉注意力机制：通过交叉注意力机制整合特征，增强生成过程的控制。
训练策略：
- 条件评估器训练：结合LLM和扩散模型损失，优化条件评估器。
- 多控制扩散模型训练：在保持预训练扩散模型固定的同时，训练复制块以适应新的控制条件。