ART:能够直接生成具有多个透明图层的图像
ART简介
Anonymous Region Transformer(ART)是由微软亚洲研究院、清华大学、北京大学和中国科学技术大学的研究团队共同开发的一种创新的多层透明图像生成方法。ART能够基于全局文本提示和匿名区域布局直接生成具有多个透明图层的图像,突破了传统单层图像生成的限制。该方法通过匿名区域布局赋予生成模型更大的自主性,使其能够根据全局提示自动分配视觉元素,同时显著降低了人工标注的复杂性。此外,ART还引入了高效的多层透明图像自编码器和匿名区域布局规划器,支持高效生成多达50层以上的图像,同时保持图层间的一致性和全局和谐性。这一成果为图形设计、数字艺术等领域的交互式内容创作提供了全新的技术范式。

ART主要功能
-
多层透明图像生成:ART能够直接生成具有多个透明图层的图像,支持用户对每一层进行独立编辑和调整,满足图形设计、数字艺术等领域对图层控制的需求。
-
高效生成与扩展性:该方法支持生成多达50层以上的透明图像,显著提升了多层图像生成的效率,同时降低了计算成本。
-
全局文本提示与匿名区域布局:用户只需提供全局文本描述和匿名区域布局,模型即可自主决定每个区域的视觉内容,无需复杂的语义标注。
-
图层间全局一致性:通过生成全局参考图像,确保多层图像之间的和谐性,避免图层间冲突和不一致问题。
-
灵活的图层编辑:支持对特定图层的内容进行重新生成和编辑,同时保持与其他图层的协调性,为用户提供了灵活的创作空间。
ART技术原理
-
匿名区域布局:与传统语义布局不同,ART采用匿名区域布局,仅通过矩形区域的位置信息,让模型基于全局文本提示自主推断每个区域的语义内容。这种方法基于Schema理论,减少了人工标注成本,同时提高了图层生成的灵活性。
-
多层透明图像自编码器:该自编码器能够直接对多层透明图像进行编码和解码,将透明度信息嵌入RGB通道,并通过3D RoPE(旋转位置嵌入)技术处理多层图像的相对位置信息,确保图层间的准确对齐和高效生成。
-
匿名区域变换器(ART):基于改进的多模态扩散变换器(MMDiT),ART能够同时生成全局参考图像、背景图像和多个透明前景图层。通过区域全注意力机制和3D RoPE设计,模型能够高效处理大量图层,同时保持全局一致性。
-
匿名区域布局规划器:利用预训练的LLM(如LLaMa)对用户提供的全局文本提示进行解析,预测出匿名区域的边界框布局,为图像生成提供结构化指导。
-
高效的计算机制:通过仅关注匿名区域内的视觉令牌,ART显著减少了注意力计算成本,相比全注意力方法,速度提升超过12倍,同时避免了图层间的冲突和不一致问题。
ART应用场景
-
平面设计:快速生成多图层的设计草图,方便设计师调整元素布局和风格。
-
数字艺术创作:为艺术家提供灵活的图层控制,实现复杂的视觉效果和创意表达。
-
广告与营销:生成具有丰富视觉层次的广告海报或促销图像,提升吸引力。
-
游戏开发:快速生成游戏场景的多层背景和前景元素,提高开发效率。
-
动画制作:为动画分层绘制提供高效工具,支持逐层编辑和修改。
-
虚拟现实与增强现实:生成多层透明图像用于构建虚拟场景或增强现实界面,提升沉浸感。
ART项目入口
- 项目主页:https://art-msra.github.io/
- GitHub代码库:https://github.com/microsoft/art-msra
- arXiv研究论文:https://arxiv.org/pdf/2502.18364
- 在线体验:http://20.65.136.27:8060/
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...