ColorFlow：腾讯联合清华大学推出的图像序列着色模型

0 70

ColorFlow简介

ColorFlow是由清华大学与腾讯PCG的ARC实验室联合开发的一种先进的图像序列着色模型，旨在自动化地将黑白图像转换为彩色版本，同时精确保持角色和对象的身份。这一三阶段扩散框架通过检索增强着色管道、上下文着色管道和引导超分辨率管道，利用参考图像池中的颜色信息，实现细致入微的颜色一致性，显著提升了图像着色的质量，并在多个评估指标上超越了现有技术。ColorFlow不仅为漫画、动画制作和电影着色等领域提供了强有力的技术支持，还通过其项目页面开源了代码和模型，进一步推动了艺术行业的技术进步。

ColorFlow主要功能

图像序列着色：ColorFlow能够将黑白图像序列转换为彩色图像，适用于漫画、动画制作和电影着色等领域。
身份（ID）保持：在着色过程中，ColorFlow能够保持角色和对象的身份一致性，确保整个图像序列中颜色的连贯性。
参考图像利用：通过参考图像池，ColorFlow能够提取相关的颜色信息，以增强着色过程的准确性和上下文相关性。
高质量输出：ColorFlow通过其先进的着色技术，生成高分辨率且颜色一致的彩色图像。
工业级应用：ColorFlow的设计考虑了工业应用的需求，使其能够直接应用于实际生产环境中。

ColorFlow技术原理

检索增强着色管道（Retrieval-Augmented Pipeline, RAP）：
- 将输入的黑白图像分割成多个重叠的补丁。
- 使用预训练的CLIP图像编码器生成输入图像和参考图像的嵌入。
- 通过计算余弦相似度来识别与查询图像最相似的参考图像补丁。
- 将选定的参考补丁组合成统一的输出图像，用于后续的着色训练。
上下文着色管道（In-context Colorization Pipeline, ICP）：
- 利用辅助分支“Colorization Guider”整合条件信息到模型中。
- 通过U-Net和扩散模型的结合，实现像素级的有条件的嵌入。
- 使用轻量级的LoRA（Low-Rank Adaptation）方法微调扩散模型，以适应着色任务。
引导超分辨率管道（Guided Super-Resolution Pipeline, GSRP）：
- 接受高分辨率的黑白图像和低分辨率的着色输出。
- 通过VAE编码器和解码器之间的跳跃连接实现特征整合。
- 上采样低分辨率着色图像，并与高分辨率黑白图像的特征结合，以增强细节恢复。
自注意力机制：
- 在扩散模型中使用自注意力机制，以加强上下文学习和颜色身份匹配。
扩散模型：
- ColorFlow基于扩散模型，这是一种生成模型，能够逐步从噪声中恢复出目标图像。
数据集和评估：
- 构建了ColorFlowBench数据集，包含多个漫画章节，用于评估模型性能。
- 使用多种评估指标，如CLIP图像相似度、FID、PSNR、SSIM和美学评分，来全面评估着色质量。