OmniConsistency：新加坡国立大学推出的图像风格迁移模型

0 100

OmniConsistency项目简介

OmniConsistency是由新加坡国立大学Show Lab团队提出的一种创新的图像风格化方法，旨在解决扩散模型在复杂场景中保持风格一致性和防止风格退化的挑战。该方法通过大规模扩散变换器（DiTs）和上下文一致性学习框架，实现了风格无关的一致性。OmniConsistency采用两阶段渐进式学习策略，将风格学习与一致性保持解耦，有效减少了风格退化问题，并通过滚动LoRA Bank机制实现了对多种风格的泛化能力。此外，该方法还具备即插即用的设计，能够无缝集成到任意风格的LoRAs中，无需重新训练。Show Lab团队通过精心构建的高质量多源风格化数据集和标准化的评估协议，验证了OmniConsistency在提升视觉一致性和美学质量方面的卓越性能，使其成为图像风格化领域的一项重要进展。

OmniConsistency主要功能

提升图像风格化一致性：
- OmniConsistency能够显著增强图像在风格化过程中的视觉一致性，保持原始图像的语义、结构和细节，同时适应多种艺术风格。
- 它可以有效解决复杂场景中的风格退化问题，确保风格化后的图像在细节和整体布局上与输入图像高度一致。
支持多种风格的即插即用：
- OmniConsistency兼容任意风格的LoRAs（Low-Rank Adaptation模块），无需针对每种风格重新训练，即可实现高质量的风格化效果。
- 该方法能够无缝集成到现有的图像生成和编辑管道中，例如与IP-Adapter等参考图像风格化方法结合使用。
高效的计算性能：
- OmniConsistency通过优化设计（如条件令牌映射和特征重用）大幅降低了计算资源消耗，仅比基础Flux文本到图像管道增加了4.6%的GPU内存使用和5.3%的推理时间。
强大的泛化能力：
- 通过两阶段训练策略和滚动LoRA Bank机制，OmniConsistency能够有效泛化到训练中未见过的风格，保持对新风格的适应性和一致性。

OmniConsistency技术原理

两阶段训练策略：
- 第一阶段：风格学习：独立训练针对每种风格的LoRA模块，捕捉每种风格的独特艺术元素和细节。每个LoRA模块在专用数据集上进行微调，确保风格特征的准确表达。
- 第二阶段：一致性学习：在这一阶段，将预训练的风格LoRA模块动态集成到扩散变换器（DiT）主干网络中，并训练一致性模块。通过滚动LoRA Bank机制，周期性切换不同风格的LoRA模块及其对应的图像对，确保一致性模块专注于结构和语义一致性，避免吸收特定风格特征。
一致性LoRA模块：
- 该模块通过仅对条件分支应用LoRA变换，将一致性相关适应以隔离的方式引入，避免干扰主扩散变换器的风格化能力或其他条件路径。这种设计确保了风格学习与一致性学习的解耦。
条件令牌映射（CTM）：
- 使用低分辨率条件图像引导高分辨率生成，通过CTM确保空间对齐。CTM通过映射低分辨率条件图像的每个令牌到高分辨率网格中的对应位置，实现了结构一致的引导。
特征重用：
- 在标准扩散过程中，条件令牌在所有去噪步骤中保持固定，而潜在令牌不断演变。OmniConsistency通过缓存条件令牌的中间特征（如注意力中的键值投影），并在整个推理过程中重用它们，从而显著降低计算成本。
上下文一致性学习框架：
- 该框架基于大规模扩散变换器（DiTs），通过在对齐的图像对上进行训练，实现鲁棒的泛化能力。训练数据集涵盖了22种不同风格，总计2600对图像，确保了模型在多种风格下的适应性。

OmniConsistency应用场景

艺术创作：艺术家可以利用OmniConsistency快速将草图或照片转化为各种艺术风格（如油画、水彩、动漫风格等），同时保持原始构图和细节，提升创作效率。
游戏开发：在游戏角色和场景设计中，快速将概念图转化为符合游戏风格的图像，如从写实风格转换为卡通风格，同时保持角色和场景的结构一致性。
广告设计：将产品照片或场景图转换为更具吸引力的风格化图像（如复古、未来主义等），以吸引消费者注意力，同时保留产品细节和品牌元素。
影视后期：在影视制作中，快速将场景图像转换为符合电影风格的视觉效果（如赛博朋克、手绘风格等），提升视觉效果的多样性。
教育与培训：在艺术教育中，帮助学生快速理解不同艺术风格的特点，通过风格化图像对比学习，提升艺术鉴赏和创作能力。
社交媒体内容创作：创作者可以将日常照片或视频帧快速转换为流行的艺术风格，生成更具吸引力的社交媒体内容，提升用户互动。