Step1X-Edit：阶跃星辰开源的图像编辑模型

0 100

Step1X-Edit项目简介

Step1X-Edit是由阶跃星辰开源的图像编辑模型，旨在缩小开源与闭源图像编辑模型之间的性能差距。该模型结合了多媒体大型语言模型（MLLM）与扩散图像解码器，通过处理参考图像和用户编辑指令，提取潜在嵌入并生成目标图像。开发团队构建了大规模高质量的数据生成管道，涵盖11种主要编辑任务，生成超过100万高质量训练数据。此外，团队还开发了GEdit-Bench基准测试，基于真实用户指令评估模型性能。实验结果表明，Step1X-Edit在多项指标上超越现有开源模型，接近甚至部分超过领先的闭源模型，为图像编辑领域带来了显著的技术进步。

Step1X-Edit主要功能

多功能图像编辑：
- 支持11种主要的图像编辑任务，包括对象添加、对象移除、对象替换、背景更改、颜色调整、材质修改、运动变化、肖像美化、风格转换、色调转换和文本修改。
- 能够根据自然语言指令精确地对图像进行编辑，满足用户多样化的需求。
高质量图像生成：
- 结合了强大的多媒体大型语言模型（MLLM）和扩散图像解码器，生成高质量、高保真的编辑结果。
- 在保持图像美学和视觉一致性的同时，精确地执行用户指定的编辑操作。
跨语言支持：
- 提供中英文双语支持，增强模型在不同语言环境下的适用性和用户体验。
- 为多语言模型训练和评估奠定了基础，拓展了模型的国际应用范围。
高效数据生成与训练：
- 设计了大规模、高质量的数据生成管道，能够生成超过100万对高质量的图像-指令对。
- 通过精心设计的数据集和高效的训练方法，确保模型在各种编辑任务上的卓越性能。
真实场景评估：
- 开发了基于真实用户指令的GEdit-Bench基准测试，涵盖了多种实际应用场景。
- 通过该基准测试，能够全面、真实地评估模型的性能，确保其在实际应用中的有效性。

Step1X-Edit技术原理

多媒体大型语言模型（MLLM）：
- 使用MLLM（如Qwen-VL）处理参考图像和用户编辑指令，提取语义信息。
- 通过MLLM生成与编辑指令对齐的语义嵌入，确保模型理解用户的编辑意图。
扩散图像解码器：
- 将MLLM生成的语义嵌入与扩散模型结合，生成目标图像。
- 扩散模型通过逐步去除噪声的方式，从潜在空间生成高质量的图像，保持图像的自然性和一致性。
连接器模块：
- 通过一个轻量级的连接器模块（如Token Refiner）将MLLM的输出嵌入转换为紧凑的文本特征表示。
- 该模块重新组织嵌入信息，使其更适合下游扩散模型的处理，提高编辑的准确性和效率。
数据生成管道：
- 采用多轮注释策略和风格化注释方法，确保数据的多样性和高质量。
- 通过大规模数据生成和严格筛选，构建了一个包含超过100万高质量图像-指令对的数据集，为模型训练提供了丰富的资源。
联合学习与优化：
- 在训练过程中，连接器模块和扩散模型同时优化，确保整个系统的协同工作。
- 使用预训练的MLLM和扩散模型初始化训练，提高模型的收敛速度和性能。
真实用户指令驱动的评估：
- GEdit-Bench基准测试基于真实用户指令和场景，确保评估结果反映实际应用中的性能。
- 通过多维度的评估指标（如语义一致性、感知质量和总体评分）全面评估模型的编辑能力。