Paint by Inpaint：基于文本指令的自动化图像对象添加技术

0 80

Paint by Inpaint简介

Paint by Inpaint 是由魏茨曼科学研究所和以色列理工学院的研究团队开发的一项创新图像编辑技术。该技术通过一种新颖的方法，首先从图像中移除对象，然后逆向操作来添加对象，使得根据文本指令在图像中无缝添加对象成为可能，而无需用户手动提供输入遮罩。这项技术的应用，不仅极大提升了图像编辑的自然度和准确性，而且通过构建大规模、高质量的PIPE数据集，为图像编辑领域的研究和实践开辟了新的道路。该项技术在2024年4月29号就已经提交论文，但在今天6月30号才公布代码。

Paint by Inpaint主要功能

❶文本驱动的对象添加：用户可以通过文本指令来指导系统在图像中添加特定的对象。
❷无需手动遮罩：系统不需要用户提前提供遮罩或指定区域，自动理解文本指令并执行对象添加。
❸大规模数据集PIPE：提供了一个大规模的、高质量的图像数据集，包含图像及其对应对象被移除的版本。
❹自然语言处理：使用大型视觉-语言模型（VLM）和大型语言模型（LLM）来理解和转换文本指令。
❺高质量图像合成：生成的图像在视觉上与原图保持高度一致性，添加的对象看起来自然且与背景融合。

Paint by Inpaint技术原理

❶逆向思维：基于观察到的“移除对象”比“添加对象”更简单，利用这一原理来逆向训练模型。
❷数据集构建：通过使用分割掩码数据集和高级修复模型创建包含对象和无对象版本的图像对。
❸扩散模型训练：使用PIPE数据集训练一个扩散模型，该模型学习如何根据文本指令反向执行修复过程，实现对象添加。
❹条件文本编码：通过交叉注意力机制将文本编码与视觉表示相结合，实现文本条件的图像编辑。
❺多模态学习：结合视觉和语言模型，生成详细的对象描述，并将其转化为自然语言指令，用于指导图像编辑过程。
❻质量控制：在对象移除阶段采用多步骤流程进行过滤和细化，确保生成的数据对训练有益。
人类评估：通过人类评估调查来收集对模型输出质量的定性见解，确保模型输出符合用户期望。

Paint by Inpaint应用场景

❶社交媒体图像编辑：用户在社交平台上分享时，增添趣味元素或个性化背景。
❷电子商务产品展示：在线店铺展示产品在不同环境中的实际效果。
❸广告图像快速制作：广告行业快速生成吸引眼球的广告图像。
❹游戏和电影视觉效果：在游戏和电影中动态添加或更改视觉元素。
❺数字艺术创作辅助：艺术家在创作过程中快速实现想象中的场景。
❻教育材料制作：在教育领域，为教学内容添加图像，增强学习体验。
❼新闻报道图像处理：新闻媒体在报道中快速准确地添加或修改图像。
❽个人照片编辑：普通用户编辑个人照片，增添创意或去除不需要的元素。
❾虚拟现实和增强现实：在VR/AR应用中，根据用户交互实时添加虚拟对象。