OMNI-EDIT：滑铁卢大学等推出的新型全能图像编辑模型

0 60

OMNI-EDIT简介

OMNI-EDIT是由加拿大滑铁卢大学、威斯康星大学麦迪逊分校和Vector Institute的研究人员共同开发的新型全能图像编辑模型。该模型能够处理包括对象替换、添加、移除、属性修改、背景替换、环境变化和风格转换在内的七种不同的图像编辑任务，并支持任意比例和分辨率的图像。通过专家监督学习、重要性采样和创新的EditNet架构，OMNI-EDIT在保持原始图像质量的同时，能够准确遵循编辑指令，显著提升了图像编辑的多样性和灵活性。

OMNI-EDIT主要功能

多任务编辑能力：OMNI-EDIT能够执行七种不同的图像编辑任务，包括对象替换、对象添加、对象移除、属性修改、背景替换、环境变化和风格转换。
任意比例和分辨率支持：模型能够处理不同长宽比和任意分辨率的图像，使其适用于各种实际场景。
指令基础的编辑：用户可以通过文本指令指导OMNI-EDIT进行特定的图像编辑，提高编辑的灵活性和用户控制度。
高质量图像输出：在添加或替换图像内容时，OMNI-EDIT能够保持图像的高保真度和视觉清晰度。

OMNI-EDIT技术原理

专家到通才的监督学习：
- 利用七个不同领域的专家模型提供监督信号，训练出一个通用的图像编辑模型OMNI-EDIT。
重要性采样：
- 使用大型多模态模型（如GPT-4o）对合成样本进行质量评分，基于评分进行重要性采样，以提高训练数据的质量。
EditNet架构：
- 引入EditNet，一种新的基于扩散-变换器的架构，通过中间表示促进控制分支和原始分支之间的交互，增强模型理解多样化编辑任务的能力。
支持任意长宽比：
- 在训练过程中加入不同长宽比的图像，确保模型能够适应各种长宽比的图像编辑需求。
数据集和评估：
- 构建了一个包含不同长宽比、高分辨率和多样化编辑指令的测试集OMNI-EDIT-BENCH，用于评估模型性能。
自动和人类评估：
- 结合自动评估和人类评估来验证OMNI-EDIT的编辑效果，确保编辑结果既符合指令又保持高质量。