PhotoDoodle：上海交通大学等推出的艺术化图像编辑框架

0 70

PhotoDoodle简介

PhotoDoodle是由新加坡国立大学、上海交通大学、北京邮电大学、字节跳动以及Tiamat团队共同开发的一种新型艺术化图像编辑框架。该框架旨在通过少量样本学习艺术家的独特风格，实现照片涂鸦（photo doodling）。它采用双阶段训练策略：首先通过大规模数据预训练通用图像编辑模型OmniEditor，随后利用EditLoRA模块对少量艺术家风格化的图像对进行微调，从而高效捕捉个性化编辑风格。PhotoDoodle通过位置编码克隆和无噪声条件范式等创新机制，确保编辑结果与原图高度一致，同时保留背景完整性。开发团队还发布了包含6种风格、300多个样本的PhotoDoodle数据集，为相关研究提供基准。该方法在艺术化图像编辑领域表现出色，为创意设计和艺术创作提供了新的可能性。

PhotoDoodle主要功能

艺术化照片涂鸦：能够在照片上添加装饰性元素（如线条、图案、特效等），并保持与背景的自然融合，实现艺术化的视觉效果。
风格化编辑：通过少量样本（30-50对图像）学习特定艺术家的独特风格，快速适应不同的艺术风格，实现个性化的图像编辑。
保持背景一致性：在编辑过程中严格保持背景图像的完整性，避免颜色、纹理或结构上的意外变化，确保编辑前后图像的高度一致。
高效定制化：利用低秩适配（LoRA）技术，仅需少量训练步骤即可完成风格定制，显著降低计算成本和数据需求。
指令驱动编辑：支持通过自然语言指令控制编辑过程，用户可以通过简单的描述实现复杂的艺术效果。

PhotoDoodle技术原理

双阶段训练架构：
- OmniEditor预训练：基于大规模图像编辑数据集，预训练一个通用图像编辑模型，使其具备强大的文本跟随能力和通用编辑性能。
- EditLoRA微调：通过低秩适配（LoRA）技术，利用少量艺术家风格化的图像对对模型进行微调，快速捕捉特定艺术家的编辑风格。
位置编码克隆（Positional Encoding Cloning）：
- 在输入图像和编辑图像之间共享相同的位置编码，确保生成结果与原始图像在空间上的一致性，避免传统方法中常见的对齐问题。
无噪声条件范式（Noise-free Conditioning Paradigm）：
- 在生成过程中保留输入图像的噪声无关条件，确保高频纹理和细节的保留，防止在迭代去噪过程中出现模糊或失真。
条件流匹配损失（Conditional Flow Matching Loss）：
- 通过优化条件流匹配损失函数，使模型能够根据输入条件生成与目标图像一致的结果，进一步提升编辑效果的准确性和一致性。
扩散变换器（Diffusion Transformers）：
- 基于扩散模型和变换器架构，利用多模态注意力机制（MMA）实现文本条件与图像内容的深度融合，提升生成图像的质量和多样性。
低秩适配（LoRA）技术：
- 在微调阶段，通过插入可训练的低秩矩阵，仅调整模型的部分权重，从而在少量数据上高效适应新的风格，同时保留预训练模型的大部分性能。