PhotoDoodle:上海交通大学等推出的艺术化图像编辑框架
PhotoDoodle简介
PhotoDoodle是由新加坡国立大学、上海交通大学、北京邮电大学、字节跳动以及Tiamat团队共同开发的一种新型艺术化图像编辑框架。该框架旨在通过少量样本学习艺术家的独特风格,实现照片涂鸦(photo doodling)。它采用双阶段训练策略:首先通过大规模数据预训练通用图像编辑模型OmniEditor,随后利用EditLoRA模块对少量艺术家风格化的图像对进行微调,从而高效捕捉个性化编辑风格。PhotoDoodle通过位置编码克隆和无噪声条件范式等创新机制,确保编辑结果与原图高度一致,同时保留背景完整性。开发团队还发布了包含6种风格、300多个样本的PhotoDoodle数据集,为相关研究提供基准。该方法在艺术化图像编辑领域表现出色,为创意设计和艺术创作提供了新的可能性。

PhotoDoodle主要功能
-
艺术化照片涂鸦:能够在照片上添加装饰性元素(如线条、图案、特效等),并保持与背景的自然融合,实现艺术化的视觉效果。
-
风格化编辑:通过少量样本(30-50对图像)学习特定艺术家的独特风格,快速适应不同的艺术风格,实现个性化的图像编辑。
-
保持背景一致性:在编辑过程中严格保持背景图像的完整性,避免颜色、纹理或结构上的意外变化,确保编辑前后图像的高度一致。
-
高效定制化:利用低秩适配(LoRA)技术,仅需少量训练步骤即可完成风格定制,显著降低计算成本和数据需求。
-
指令驱动编辑:支持通过自然语言指令控制编辑过程,用户可以通过简单的描述实现复杂的艺术效果。
PhotoDoodle技术原理
-
双阶段训练架构:
-
OmniEditor预训练:基于大规模图像编辑数据集,预训练一个通用图像编辑模型,使其具备强大的文本跟随能力和通用编辑性能。
-
EditLoRA微调:通过低秩适配(LoRA)技术,利用少量艺术家风格化的图像对对模型进行微调,快速捕捉特定艺术家的编辑风格。
-
-
位置编码克隆(Positional Encoding Cloning):
-
在输入图像和编辑图像之间共享相同的位置编码,确保生成结果与原始图像在空间上的一致性,避免传统方法中常见的对齐问题。
-
-
无噪声条件范式(Noise-free Conditioning Paradigm):
-
在生成过程中保留输入图像的噪声无关条件,确保高频纹理和细节的保留,防止在迭代去噪过程中出现模糊或失真。
-
-
条件流匹配损失(Conditional Flow Matching Loss):
-
通过优化条件流匹配损失函数,使模型能够根据输入条件生成与目标图像一致的结果,进一步提升编辑效果的准确性和一致性。
-
-
扩散变换器(Diffusion Transformers):
-
基于扩散模型和变换器架构,利用多模态注意力机制(MMA)实现文本条件与图像内容的深度融合,提升生成图像的质量和多样性。
-
-
低秩适配(LoRA)技术:
-
在微调阶段,通过插入可训练的低秩矩阵,仅调整模型的部分权重,从而在少量数据上高效适应新的风格,同时保留预训练模型的大部分性能。
-
PhotoDoodle应用场景
-
数字艺术创作:艺术家可快速生成个性化风格的艺术作品,提升创作效率。
-
社交媒体内容制作:为照片添加创意元素,增强视觉吸引力,提升用户互动。
-
广告与商业设计:定制化编辑产品图片,快速生成符合品牌风格的创意广告素材。
-
动画与影视制作:为静态画面添加动态元素或特效,辅助动画设计和影视前期概念设计。
-
教育与培训:在教学中辅助创作,激发学生创造力,生成教学用的视觉素材。
-
个人照片美化:用户可轻松为个人照片添加装饰性元素,如手绘风格、特效等,提升照片趣味性。
PhotoDoodle项目入口
- GitHub代码库:https://github.com/showlab/PhotoDoodle
- HuggingFace:https://huggingface.co/nicolaus-huang/PhotoDoodle
- arXiv技术论文:https://arxiv.org/pdf/2502.14397
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...