MimicBrush：自动语义对应实现创新零样本图像编辑

0 20

MimicBrush项目简介

MimicBrush是一种创新的图像编辑技术，由香港大学、阿里巴巴集团和蚂蚁集团的联合研究团队开发。这项技术允许用户通过简单的操作，即在源图像上指定编辑区域并提供一张参考图像，来实现零样本图像编辑。MimicBrush模型能够自动捕捉源图像与参考图像之间的语义对应关系，并利用前馈网络执行精确的图像编辑任务，显著提升了编辑的便捷性和效果。这项工作不仅展示了强大的图像编辑能力，还通过构建基准测试，推动了图像生成和编辑技术领域的进一步研究。

MimicBrush主要功能

❶零样本图像编辑：用户无需进行复杂的操作或提供详细的文本指令，只需在源图像上指定需要编辑的区域，并提供一张参考图像，MimicBrush 就能自动完成编辑任务。
❷参考模仿：系统能够自动从参考图像中捕捉与源图像编辑区域相对应的视觉元素，并将其应用到源图像上。
❸实时反馈：编辑的每一步都伴随着界面的即时更新，使用户能够迅速对效果进行评估和微调，从而确保最终作品精准地达到他们的创意愿景。
❹语义对应捕捉：模型能够自动捕捉源图像和参考图像之间的语义对应关系，无需用户手动指定。
❺细节和背景的和谐融合：生成的编辑区域不仅保留了参考图像中的视觉概念细节，而且与源图像的背景和谐地融合在一起。
❻灵活性和用户友好性：MimicBrush 的设计使得用户在进行图像编辑时更加方便和直观，降低了技术门槛。

MimicBrush应用场景

❶产品设计：快速迭代设计元素，如服装、饰品。
❷艺术创作：模仿现实或虚拟作品风格进行创作。
❸媒体编辑：在影视制作中调整场景或物体的外观。
❹广告设计：定制广告图像，以符合特定品牌风格。
❺社交媒体：用户编辑个人照片，增加创意效果。
❻虚拟试穿：模拟服装在不同人物上的外观。
❼游戏开发：为游戏角色或环境设计定制外观。
❽教育和培训：教授图像编辑技巧，进行视觉演示。

MimicBrush技术原理

❶双扩散UNet结构：MimicBrush 使用了两个UNet（一种常见的卷积神经网络结构，常用于图像分割任务），分别称为模仿U-Net和参考U-Net。这两个网络分别处理源图像和参考图像，并通过注意力机制共享特征信息。
❷自我监督训练：模型通过从视频帧中随机选择两帧作为训练样本，一帧作为源图像并遮罩某些区域，另一帧作为参考图像。模型学习如何使用参考图像的信息来恢复源图像中被遮罩的区域，这个过程不需要外部的标注信息。
❸语义对应捕捉：模型能够自动发现源图像和参考图像之间的语义对应关系，这是通过模仿U-Net和参考U-Net之间的交互实现的。参考U-Net提取的特征通过注意力机制注入到模仿U-Net中，帮助完成遮罩区域的生成。
❹数据增强：为了增加源图像和参考图像之间的变化性，MimicBrush 应用了强烈的数据增强技术，包括颜色抖动、旋转、缩放和翻转等。
❺深度估计：MimicBrush 利用深度估计模型来预测源图像的深度图，这有助于在纹理转移任务中保持源对象的形状。
❻遮罩策略：MimicBrush 使用基于SIFT（尺度不变特征变换）匹配的策略来确定源图像中哪些区域需要被遮罩，这有助于模型学习如何从参考图像中找到正确的对应区域。
❼注意力机制：模仿U-Net和参考U-Net在注意力层共享键（keys）和值（values），这有助于模仿U-Net利用参考图像的内容来完成源图像的遮罩区域。
❽生成模型：MimicBrush 基于扩散模型（diffusion model），这是一种生成模型，能够从噪声中生成高质量的图像。
❾评估基准：为了系统地评估模仿编辑的性能，MimicBrush 构建了自己的评估基准，包括部分合成和纹理转移任务。