ConsiStory：免训练生成一系列具有一致主体的图像

0 80

ConsiStory项目介绍

ConsiStory 是一种先进的文本到图像生成技术，由 NVIDIA 和特拉维夫大学的研究团队共同开发。这个工具能够在无需额外训练的情况下，生成一系列具有一致主体的图像，同时保持对不同文本提示的高响应度。通过其主体驱动的共享注意力机制和特征注入技术，ConsiStory 大幅提高了图像生成的一致性和多样性，使其在个性化内容创作、故事插图和虚拟资产设计等领域具有广泛的应用潜力。

ConsiStory主要功能

❶一致性主体生成：能够在不同的文本提示下生成保持相同主体身份的图像序列。
❷无需训练的个性化：允许对常见对象进行个性化生成，无需进行额外的训练或微调。
❸多主体场景生成：可以处理多主体场景，并保持每个主体的一致性。
❹与现有工具的兼容性：能够与现有的图像生成工具如 ControlNet 集成，实现更丰富的控制功能。
❺布局多样性：在保持主体一致性的同时，鼓励生成图像的布局多样性。
❻快速生成：相比于现有的一些方法，ConsiStory 能够显著加快生成一致性图像的速度。

ConsiStory应用场景

❶书籍和故事插图：为儿童书籍、小说或漫画故事生成一系列具有一致角色和场景的插图。
❷虚拟资产设计：在游戏或虚拟现实应用中，为虚拟角色或环境元素创建一致的视觉设计。
❸图形小说创作：生成具有连贯视觉风格的图形小说或漫画，其中角色和场景在不同情节中保持一致性。
❹个性化内容创建：为用户生成个性化的图像内容，如根据用户描述生成定制化的头像或个人肖像。
❺广告和营销材料：为广告活动制作一系列风格统一且具有品牌特征的图像。
❻电影和电视剧制作：在前期制作阶段，生成与剧本描述一致的角色和场景概念图。
❼社交媒体和网络内容：为社交媒体帖子或网络内容生成引人注目且风格一致的图像。

ConsiStory技术原理

❶主体驱动的共享注意力机制：通过扩展自注意力层，允许一个图像中的查询访问批次中其他图像的键，但通过主体掩码限制这种访问，仅在包含主体的区域之间共享信息。
❷特征注入：为了在图像间进一步细化主体的身份，引入一种机制，通过批次内混合特征来实现。这一步骤涉及到提取每对图像间的补丁对应图，并基于该图在图像间注入特征。
❸布局多样性增强：为了保持生成图像的布局多样性，ConsiStory 采用了两种策略：一是在生成查询特征时混合非一致性采样步骤中的特征；二是通过自注意力dropout机制减少不同图像间共享的注意力信息。
❹锚点图像和可重用主体：通过指定一些生成图像作为“锚点图像”，可以减少计算复杂性，同时允许在新场景中重用相同的主体。
❺多主体一致性生成：ConsiStory 通过简单地取主体掩码的并集，实现了在同一图像中保持多个主体的一致性生成。
❻与ControlNet的集成：展示了如何将ConsiStory与ControlNet集成，以生成具有姿势控制的一致性角色。
❼训练外个性化：利用编辑友好的反演技术，对每个主体的两张真实图像进行反演，这些反演图像作为锚点在ConsiStory方法中用于无需训练的个性化。