Mini DALL·E 3：清华大学等推出的交互式文本到图像生成模型

0 70

Mini DALL·E 3简介

Mini DALL·E 3是由北京理工大学、上海人工智能实验室、清华大学和香港中文大学联合开发的交互式文本到图像生成模型。它通过自然语言与用户进行多轮对话，根据用户需求生成高质量图像，并支持图像编辑与细化。该系统利用大型语言模型（LLM）的强大语言理解能力，结合预训练的文本到图像模型，通过提示技术实现图像生成任务，无需额外训练。开发团队巧妙地设计了分层内容一致性控制策略，确保多轮交互中图像内容的连贯性。Mini DALL·E 3不仅提升了用户体验，还为下一代图像生成系统提供了新的发展方向，展现了在内容创作、设计和交互式故事讲述等领域的巨大潜力。

Mini DALL·E 3主要功能

多轮交互式图像生成：用户可以通过自然语言与系统进行多轮对话，逐步细化图像生成的要求。例如，用户可以先请求生成一个“可爱的狗”，然后要求“让它在河边奔跑”，系统会根据用户的反馈不断调整和优化生成的图像。
图像编辑与细化：用户可以对已生成的图像提出修改意见，如“让狗看起来更活泼”或“将背景换成森林”，系统能够理解这些指令并进行相应的编辑和细化。
内容一致性保持：在多轮交互中，系统能够保持图像内容的一致性，例如在生成一系列相关图像时，保持角色或场景的连贯性。这对于创建连贯的故事线或设计系列图像非常有用。
自然语言问答与图像生成结合：除了图像生成，Mini DALL·E 3还支持与图像相关的自然语言问答。用户可以询问关于生成图像的细节，或者要求系统根据图像内容生成描述性文本。
多场景应用支持：适用于多种应用场景，包括但不限于内容创作、故事创作、概念设计、交互式标志设计等，能够根据不同的需求生成相应的图像。

Mini DALL·E 3技术原理

基于大型语言模型（LLM）的交互：系统利用LLM的强大语言理解能力，通过自然语言与用户进行交互。LLM负责解析用户的指令，并生成用于图像生成的中间文本描述。
提示技术（Prompting）：通过设计特定的提示模板，将图像生成任务转化为文本描述生成任务。系统会生成包含图像描述的文本，并通过特殊标签（如<image>和<edit>）来区分生成和编辑操作。
分层内容一致性控制：根据内容变化的大小选择不同的T2I模型。对于小内容变化，使用Prompt to Prompt和MasaCtrl模型；对于大内容变化，使用IP-Adapter模型，以确保多轮交互中图像内容的一致性。
适配器与路由器机制：系统包含一个适配器和一个路由器。适配器将LLM生成的文本描述转换为适合后端T2I模型的形式；路由器则负责将生成的图像需求分发到相应的T2I模型进行处理。
预训练的文本到图像模型：利用现有的预训练T2I模型（如Stable Diffusion等）进行图像生成。这些模型能够根据文本描述生成高质量的图像，而无需从头开始训练。
多模态能力的整合：Mini DALL·E 3保持了LLM的多模态能力，可以无缝地将图像生成与自然语言问答相结合，为用户提供更加丰富的交互体验。