DesignEdit：北大等开发的一种先进的图像编辑技术

0 70

DesignEdit项目介绍

DesignEdit是一种先进的图像编辑技术，由微软亚洲研究院和北京大学的联合团队开发。这项技术通过采用多层潜在分解和融合的方法，实现了无需额外训练的统一和精确的空间感知图像编辑框架。它能够灵活地操纵设计图像中的不同对象，并同时执行多种编辑操作，如缩放、移动、擦除文本、去除云层和重新设计等。DesignEdit利用了自注意力机制中的创新关键掩模自注意力方案，以及指令引导的潜在融合技术，显著提升了编辑质量和准确性。此外，它还整合了GPT-4V模型的推理和视觉规划能力，以辅助制定用户指令和生成精确的布局安排。这项研究在多个图像编辑任务上展示了其优越性能，特别是在设计图像领域，为未来更精确的空间感知图像编辑技术的发展提供了新的方向。

DesignEdit主要功能

❶对象移除：从图像中精确移除指定的对象，同时保持背景和其他元素的自然和连贯性。
❷对象移动：在图像中移动对象到新的位置，保持空间关系的准确性。
❸对象缩放：调整对象的大小，适应不同的视觉需求。
❹对象翻转：对图像中的对象进行水平或垂直翻转。
❺对象重复：在图像中复制对象，创建重复的视觉元素。
❻文本擦除：从设计图像中移除不需要的文本。
❼云层擦除：去除图像中的云层或其他类似的覆盖元素。
❽重新设计：对图像进行创意性的重新设计，如改变布局或视觉元素。
❾相机平移和缩放：模拟相机移动效果，如平移和缩放图像。
❿跨图像合成：将多个图像合成到一个场景中，创建复杂的视觉作品。
⓫排版和装饰编辑：对设计图像中的排版和装饰元素进行编辑和调整。

DesignEdit应用场景

❶平面设计：设计师可以使用DesignEdit进行快速的图像元素调整，如标志、海报和其他视觉材料的编辑。
❷照片编辑：摄影师和图像编辑者可以利用此技术进行照片的修复、美化或创意调整，如去除不需要的对象或添加创意元素。
❸电子商务：在线商店可以应用DesignEdit来优化产品图片，比如调整产品的大小、颜色或背景，以更好地吸引消费者。
❹社交媒体内容创作：内容创作者可以利用DesignEdit来创建或修改图像，用于社交媒体帖子，增加内容的吸引力和互动性。
❺游戏和电影视觉效果：在游戏开发和电影制作中，DesignEdit可以用于快速原型设计和视觉效果的迭代，提高制作效率。

DesignEdit技术原理

❶多层潜在分解（Multi-Layered Latent Decomposition）：将源图像的潜在表示分割成多个层，包括对象层和一个需要修复的不完整背景层。
❷关键掩模自注意力（Key-Masking Self-Attention）：在自注意力机制内部，通过引入关键掩模来传播周围上下文信息到掩模区域，同时减少对外部区域的影响，以实现高质量的背景修复。
❸指令引导的潜在融合（Instruction-Guided Latent Fusion）：按照目标布局，将多层潜在表示粘贴到画布潜在表示上。
❹融合潜在表示的协调（Fused Latent Harmonization）：通过额外的去噪步骤来增强层与层之间的边缘整合，减少界面处的突变。
❺抑制方案（Artifact Suppression Scheme）：在潜在空间中应用，以提高修复质量，避免无关区域对修复结果的负面影响。
❻GPT-4V模型的推理和视觉规划：辅助制定用户指令和生成精确的布局安排。