DynamicControl:腾讯等推出的多条件自适应文本到图像生成框架
DynamicControl简介
DynamicControl是由腾讯联合南洋理工、浙大等研究机构推出的一种创新框架,旨在提升文本到图像生成任务中的条件控制能力。该框架通过动态组合多样的控制信号,支持自适应选择不同数量和类型的条件,以生成更可靠和详细的图像。通过双循环控制器和多模态大型语言模型(MLLM),DynamicControl能够优化条件排序并学习动态视觉特征,从而增强对生成图像的控制。实验结果表明,DynamicControl在控制性、生成质量和可组合性方面均优于现有方法。
DynamicControl主要功能
- 动态条件选择:DynamicControl能够根据输入的文本提示和条件动态选择最合适的控制信号组合,以生成更符合预期的图像。
- 双循环控制器:利用预训练模型对输入条件进行初步评分和排序,评估条件与源图像的相似性。
- 条件评估器:集成大型多模态语言模型(MLLM),对条件进行进一步的优化排序,提升条件选择的合理性。
- 多控制适配器:并行处理多个控制条件,学习从动态视觉条件中提取的特征图,并将其整合以调节生成过程。
- 增强控制力:通过以上机制,增强对生成图像的控制,提高图像合成的质量和一致性。
DynamicControl技术原理
- 双循环控制器:
- 条件循环一致性:评估提取的条件与输入条件之间的相似性。
- 图像循环一致性:计算生成图像与源图像之间的像素级相似性,确保生成图像的质量。
- 条件评估器:
- 多模态大型语言模型(MLLM):使用MLLM处理条件和文本提示,生成条件排序。
- 嵌入转换:通过Q-Former将MLLM的隐藏状态转换为与扩散模型兼容的嵌入表示。
- 多控制适配器:
- 特征提取:从文本提示和动态空间条件中提取多控制嵌入。
- Mixture-of-Experts(MOE):并行捕获不同低级视觉条件的特征。
- 交叉注意力机制:通过交叉注意力机制整合特征,增强生成过程的控制。
- 训练策略:
- 条件评估器训练:结合LLM和扩散模型损失,优化条件评估器。
- 多控制扩散模型训练:在保持预训练扩散模型固定的同时,训练复制块以适应新的控制条件。
DynamicControl应用场景
- 艺术创作:艺术家和设计师可以使用DynamicControl根据文本描述生成具有特定风格和元素的艺术作品。
- 广告和营销:创建符合品牌要求和营销主题的图像,如根据产品特点生成吸引人的广告图像。
- 游戏开发:在游戏设计中快速生成符合特定场景描述的游戏环境和角色图像。
- 电影和电视制作:辅助概念艺术家根据剧本描述生成电影或电视剧的概念艺术和场景设计图。
- 虚拟时尚:为虚拟形象设计服装和配饰,根据时尚趋势生成独特的虚拟时尚造型。
- 教育和培训:在教育领域,根据教科书中的描述生成教学图像,帮助学生更好地理解和学习复杂概念。
DynamicControl项目入口
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...