AutoStudio：多轮交互中的主题一致性图像生成框架

0 40

AutoStudio项目简介

AutoStudio是由中山大学深圳校区的研究团队与联想研究院合作开发的一项创新技术，它是一个无需训练的多智能体框架，专注于多轮交互式图像生成。该框架利用大型语言模型和稳定扩散技术，通过三个智能体——主题管理器、布局生成器和监督器——以及一个绘图器，实现与用户对话的即时交互，并生成连贯、高质量的多主题图像。AutoStudio在保持主题一致性方面表现出色，显著提升了图像生成的性能，为开放性故事创作和多轮编辑等任务提供了强大支持。

AutoStudio主要功能

❶多轮交互式图像生成：与用户进行多轮对话，根据对话内容生成一系列连贯的图像。
❷主题一致性维护：在多轮对话中保持图像主题的一致性，即使在用户频繁更换主题的情况下。
❸即时交互反馈：能够即时响应用户的指令和编辑请求，进行图像的实时调整和生成。
❹多主题定制和编辑：支持在图像中同时处理多个主题，并允许用户对每个主题进行定制和编辑。
❺高质量图像输出：利用稳定扩散模型生成高分辨率和视觉吸引力的图像。

AutoStudio应用场景

❶故事创作辅助：帮助作者以图像形式展现故事情节。
❷漫画/绘本制作：生成连贯的漫画或绘本页面。
❸角色设计：为游戏或动画设计一致的角色形象。
❹广告和营销：快速生成吸引消费者的视觉内容。
❺教育工具：辅助教学，以图像形式解释复杂概念。
❻虚拟环境构建：为虚拟现实或增强现实应用创建视觉元素。

AutoStudio技术原理

❶多智能体框架：采用三个基于大型语言模型的智能体和一个图像生成智能体，协同工作以处理用户输入和图像生成。
❷主题管理器：解析对话内容，识别不同的主题，并为其分配适当的上下文。
❸布局生成器：生成每个主题的细粒度边界框，控制主题在图像中的位置。
❹监督器：提供布局细化和校正的建议，优化主题间的相对位置和空间关系。
❺绘图器：基于稳定扩散模型，根据细化的布局和主题信息生成图像。
❻Parallel-UNet架构：引入具有两个并行交叉注意力模块的新型UNet，分别处理文本和图像特征，增强主题特征的表达。
❼主题初始化生成方法：在生成过程中初始化潜在特征图，以更好地保留小主题的特征，避免主题丢失或错误融合。
❽无需训练：作为一个无需训练的框架，AutoStudio可以直接使用现成的模型进行交互式图像生成任务。