UltraEdit：能够响应自然语言指令实现精准的图像编辑

0 81

UltraEdit简介

UltraEdit是由北京大学、BIGAI、加州大学洛杉矶分校和伊利诺伊大学香槟分校的联合研究团队开发的一项突破性图像编辑技术。该技术基于一个大规模、高质量、自动生成的数据集，能够响应自然语言指令，实现精准的图像编辑。UltraEdit利用大型语言模型的创造力和人类评估者的编辑示例，生成多样化的编辑指令，并通过真实图像作为参考，支持细致到区域级别的编辑，显著提升了图像编辑的质量和灵活性。这项技术不仅为图像编辑领域带来了新的可能，也为未来的研究和开发奠定了基础。

UltraEdit主要功能

❶大规模图像编辑数据集：提供约400万张图像编辑样本，覆盖超过75万条独特的编辑指令。
❷多样化编辑指令：利用大型语言模型（LLMs）生成创意且多样化的编辑指令。
❸真实图像基础：基于真实世界的照片和艺术作品，增强了数据集的多样性和减少了偏见。
❹区域基础编辑：支持特定区域的编辑，通过高质量的自动生成区域注释实现更精细的图像修改。
❺基准测试新记录：在MagicBrush和Emu-Edit等图像编辑基准测试中取得优异成绩。
❻高质量图像生成：使用自动指标过滤不合格图像，确保生成图像的高质量和指令对齐。

UltraEdit技术原理

❶指令生成：结合人类编写的指令和LLMs的扩展能力，生成丰富多样的编辑指令。
❷P2P控制：使用Prompt-to-Prompt（P2P）控制方法，通过现成的文本到图像（T2I）扩散模型生成源图像和目标图像。
❸真实图像锚点：收集高质量的图像-标题配对数据，用作生成过程中的锚点，减少T2I模型的偏见。
❹自动区域生成：采用自动方法从指令中生成编辑区域，并在修改后的修复扩散管道中使用这些注释。
❺图像质量评估：运用CLIP图像相似度、DINOv2相似度和SSIM等自动度量标准来评估和筛选图像质量。
❻数据集构成：数据集包括源图像、目标图像、编辑指令、图像标题、区域注释等多种元素。
❼去偏和公平性：尽管数据集力求多样性，但团队也意识到可能存在的偏见，并采取措施减少不公平的表示。
❽伦理和隐私保护：在数据集创建过程中考虑伦理问题，采取措施保护个人隐私并防止数据滥用。

UltraEdit应用场景

❶创意设计：用户可将概念转化为视觉图像。
❷数字艺术：艺术家使用自然语言指令创作数字艺术作品。
❸媒体编辑：新闻或媒体机构快速更新图像内容以适应报道。
❹广告制作：根据广告概念快速生成或修改图像素材。
❺游戏开发：设计游戏元素，如角色、场景等。
❻电影制作：用于电影的视觉特效预览和概念开发。
❼社交媒体：用户在社交平台上分享个性化的图像内容。
❽教育和培训：教授图像编辑和视觉设计的基础。
❾电子商务：在线零售商用于产品图像的快速编辑和优化。
❿个人娱乐：用户为个人娱乐目的编辑和创建图像。