Add-it:能够在图像中根据文本指令自然地添加新对象
Add-it简介
Add-it是由NVIDIA和Tel-Aviv University的研究团队开发的一种创新方法,它能够在图像中无缝添加对象,同时保持场景的自然性和结构一致性。这一训练自由的方法通过扩展预训练的扩散模型的注意力机制,有效地融合了场景图像、文本提示和生成图像本身的信息。Add-it在多个基准测试中展现了卓越的性能,特别是在新构建的“Additing Affordance Benchmark”上,它在对象放置的可信度评估中超越了有监督的方法,并且得到了人类评估者的青睐。
Add-it主要功能
- 图像对象添加: Add-it能够在图像中根据文本指令自然地添加新对象,无论是真实图像还是由模型生成的图像。
- 结构保持: 在添加对象的同时,该方法能够保持原始图像的结构和场景一致性。
- 无需优化或预训练: 与传统的图像编辑模型不同,Add-it不需要针对特定任务进行优化或预训练即可实现高质量的图像编辑。
- 多源信息融合: 通过结合场景图像、文本提示和生成图像的信息,Add-it能够在生成过程中平衡上下文和指令。
- 高自然度和真实感: 生成的图像在视觉上具有很高的自然度和真实感,与人类创建的图像难以区分。
Add-it技术原理
- 扩展注意力机制: Add-it扩展了扩散模型的注意力机制,使其能够处理来自源图像的额外信息,从而实现对象的自然添加。
- 加权多模态注意力: 通过为源图像、文本提示和目标图像的注意力分配不同的权重,Add-it能够在生成过程中平衡这些信息的贡献。
- 结构转移: 该方法通过将源图像的结构信息注入到目标图像中,确保添加的对象与图像的其余部分保持一致性。
- 潜在混合: Add-it使用一种新颖的潜在混合技术来保留源图像的细节,如纹理和背景对象,同时允许必要的调整,如阴影或反射。
- 噪声结构转移: 在生成过程中,Add-it通过噪声结构转移步骤来调整生成图像的结构,以更好地匹配源图像。
- 自动评估指标: 为了评估对象放置的可信度,Add-it引入了“Additing Affordance Benchmark”,这是一个手动注释的数据集,用于评估对象添加的自然性和合理性。
Add-it应用场景
- 内容创作: 在广告、社交媒体和娱乐产业中,Add-it可以用于创造新颖的图像内容,如为现有照片添加道具或角色。
- 游戏设计: 在游戏开发中,该工具可以用来快速生成或修改游戏内的资产和环境元素,提高开发效率。
- 电影和电视制作: 在后期制作中,Add-it可以用于添加或修改场景中的元素,而无需重新拍摄。
- 虚拟现实: 在VR环境中,该工具可以用来根据用户的行为或偏好动态调整虚拟场景。
- 数据增强: 在机器学习和计算机视觉研究中,Add-it可以用来生成训练数据,增加数据集的多样性。
- 个人娱乐: 普通用户可以利用Add-it进行个人照片的趣味编辑,如添加宠物、装饰品或其他有趣的对象。
Add-it项目入口
- 官方项目主页:https://research.nvidia.com/labs/par/addit/
- GitHub源码库:https://github.com/NVlabs/addit
- arXiv研究论文:https://arxiv.org/abs/2411.07232
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...