ConsiStory:免训练生成一系列具有一致主体的图像

ConsiStory项目介绍

ConsiStory 是一种先进的文本到图像生成技术,由 NVIDIA 和特拉维夫大学的研究团队共同开发。这个工具能够在无需额外训练的情况下,生成一系列具有一致主体的图像,同时保持对不同文本提示的高响应度。通过其主体驱动的共享注意力机制和特征注入技术,ConsiStory 大幅提高了图像生成的一致性和多样性,使其在个性化内容创作、故事插图和虚拟资产设计等领域具有广泛的应用潜力。

ConsiStory:免训练生成一系列具有一致主体的图像

ConsiStory主要功能

❶一致性主体生成:能够在不同的文本提示下生成保持相同主体身份的图像序列。
❷无需训练的个性化:允许对常见对象进行个性化生成,无需进行额外的训练或微调。
❸多主体场景生成:可以处理多主体场景,并保持每个主体的一致性。
❹与现有工具的兼容性:能够与现有的图像生成工具如 ControlNet 集成,实现更丰富的控制功能。
❺布局多样性:在保持主体一致性的同时,鼓励生成图像的布局多样性。
❻快速生成:相比于现有的一些方法,ConsiStory 能够显著加快生成一致性图像的速度。

ConsiStory应用场景

❶书籍和故事插图:为儿童书籍、小说或漫画故事生成一系列具有一致角色和场景的插图。
❷虚拟资产设计:在游戏或虚拟现实应用中,为虚拟角色或环境元素创建一致的视觉设计。
❸图形小说创作:生成具有连贯视觉风格的图形小说或漫画,其中角色和场景在不同情节中保持一致性。
❹个性化内容创建:为用户生成个性化的图像内容,如根据用户描述生成定制化的头像或个人肖像。
❺广告和营销材料:为广告活动制作一系列风格统一且具有品牌特征的图像。
❻电影和电视剧制作:在前期制作阶段,生成与剧本描述一致的角色和场景概念图。
❼社交媒体和网络内容:为社交媒体帖子或网络内容生成引人注目且风格一致的图像。

ConsiStory技术原理

ConsiStory:免训练生成一系列具有一致主体的图像

❶主体驱动的共享注意力机制:通过扩展自注意力层,允许一个图像中的查询访问批次中其他图像的键,但通过主体掩码限制这种访问,仅在包含主体的区域之间共享信息。
❷特征注入:为了在图像间进一步细化主体的身份,引入一种机制,通过批次内混合特征来实现。这一步骤涉及到提取每对图像间的补丁对应图,并基于该图在图像间注入特征。
❸布局多样性增强:为了保持生成图像的布局多样性,ConsiStory 采用了两种策略:一是在生成查询特征时混合非一致性采样步骤中的特征;二是通过自注意力dropout机制减少不同图像间共享的注意力信息。
❹锚点图像和可重用主体:通过指定一些生成图像作为“锚点图像”,可以减少计算复杂性,同时允许在新场景中重用相同的主体。
❺多主体一致性生成:ConsiStory 通过简单地取主体掩码的并集,实现了在同一图像中保持多个主体的一致性生成。
❻与ControlNet的集成:展示了如何将ConsiStory与ControlNet集成,以生成具有姿势控制的一致性角色。
❼训练外个性化:利用编辑友好的反演技术,对每个主体的两张真实图像进行反演,这些反演图像作为锚点在ConsiStory方法中用于无需训练的个性化。

ConsiStory项目入口

© 版权声明

相关文章

暂无评论

暂无评论...