DiffUHaul：无需额外训练即可实现图像中对象的无缝拖动

0 90

DiffUHaul简介

DiffUHaul是由NVIDIA Research、耶路撒冷希伯来大学、特拉维夫大学和Reichman大学共同研发的一项创新技术。这项技术通过利用局部文本到图像模型的空间理解能力，无需额外训练即可实现图像中对象的无缝拖动。它通过注意力掩码和自注意力共享机制，解决了模型中对象表示的纠缠问题，并引入了一种新的扩散锚定技术，以平滑地融合新布局与原始外观，同时保留对象的细节。这项研究展示了在图像编辑领域的突破性进展。

DiffUHaul主要功能

对象拖动：能够在图像中无缝地移动对象，无需重新训练或微调模型。
空间理解：利用局部文本到图像模型的空间理解能力，实现对图像中对象位置的精确控制。
自动化评估：引入自动化评估流程，以量化和展示方法的有效性。
用户偏好研究：通过用户研究来验证方法的实用性和用户接受度。

DiffUHaul技术原理

注意力掩码：在去噪步骤中应用注意力掩码，以增强模型在不同对象间的解耦能力，从而提高编辑性能。
自注意力共享机制：采用自注意力共享机制来保持对象的高级外观特征，确保在拖动过程中对象的视觉一致性。
扩散锚定技术：
- 早期去噪步骤：在控制对象形状和场景布局的早期去噪步骤中，通过插值源图像和目标图像的自注意力特征，实现目标布局与源外观的平滑融合。
- 后期去噪步骤：在控制图像中细粒度视觉外观的后期去噪步骤中，通过最近邻复制的方式，将源图像的局部特征更新到插值图像中，以保留对象的细节。
DDPM自注意力桶化：为了更好地使用局部模型重建真实图像，应用了DDPM（Denoising Diffusion Probabilistic Models）自注意力桶化技术。
无需训练：DiffUHaul是一个无需训练的方法，可以直接应用于现有的局部文本到图像模型，实现对象拖动任务。