MangaNinja:自动将参考图像与线稿对齐 实现精确的色彩匹配

MangaNinja简介

MangaNinja是由香港大学、香港科技大学、通义实验室和蚂蚁集团的研究团队共同开发的一种先进的参考引导式线稿上色方法。该技术基于扩散模型,通过双分支结构和PointNet实现精确的自动匹配,并允许用户通过定义匹配点进行精细控制。MangaNinja在处理复杂场景,如不同参考图像之间的上色、线稿和参考图像之间的显著变化以及多主体上色方面表现出色。此外,研究团队还构建了一个综合基准测试,为线稿上色的评估提供了一个标准化的框架,旨在加速动漫行业的上色流程,并为未来的上色研究提供新的方向。

MangaNinja:自动将参考图像与线稿对齐 实现精确的色彩匹配

MangaNinja主要功能

  1. 自动参考图像匹配:MangaNinja能够自动将参考图像与线稿对齐,实现精确的色彩匹配,即使在参考图像和线稿之间存在显著差异时也能保持高度一致性。
  2. 用户交互式点控制:通过点驱动控制方案,用户可以定义特定的匹配点,实现更精细的色彩匹配,处理复杂场景,如极端姿势、阴影、多参考图像和谐化等。
  3. 高质量上色结果:生成的上色结果不仅在视觉上具有高保真度,还能准确保留角色的身份特征,适用于漫画、动画和其他内容创作应用。
  4. 处理复杂场景:能够处理线稿和参考图像之间的显著变化、缺失细节、多参考图像上色等复杂情况,提供高质量的上色解决方案。

MangaNinja技术原理

  1. 双分支结构
    • Reference U-Net:用于编码参考图像,提取多级特征并与主去噪U-Net融合。通过VAE将参考图像编码为4通道的潜在表示,然后输入到Reference U-Net中。
    • Denoising U-Net:主分支利用Reference U-Net和PointNet作为条件进行图像上色。从图像中提取线稿,通过VAE压缩到潜在空间,然后与噪声图像潜在表示拼接,形成8通道的输入。
  2. 补丁洗牌模块
    • 将参考图像分割成多个小块并随机洗牌,破坏整体结构连贯性,鼓励模型关注参考图像中的小块(甚至像素级)以实现更精细的局部匹配能力。通过从2×2到32×32逐步增加随机洗牌的补丁数量,采用粗到细的学习方案。
  3. 点驱动控制方案
    • PointNet:通过PointNet编码用户指定的匹配点对,生成多尺度嵌入表示。这些点嵌入通过交叉注意力机制集成到主分支中,增强点控制的有效性。
    • 多分类器自由引导:通过调整参考图像和点的引导强度, individually control the guiding strength of the reference image and the points during the generation inference process。
    • 条件丢弃:在训练期间随机丢弃线稿条件,迫使模型依赖稀疏的点控制信号,增强模型对点控制的依赖和学习效果。
    • 两阶段训练:第一阶段进行无条件生成,模型同时学习提取参考特征和利用指定点对应关系进行上色;第二阶段仅训练PointNet模块,增强点控制能力。
  4. 综合基准测试
    • 构建了一个包含200对图像的综合基准测试,涵盖不同动漫中的各种角色,包括人类和非人类角色,以及多样的面部表情和外观。通过计算CLIP和DINO语义图像相似性、峰值信噪比(PSNR)和多尺度结构相似性指数(MS-SSIM)等指标,系统地评估线稿上色的性能。此外,还通过标注匹配点对,评估像素级的上色准确性。

MangaNinja应用场景

  1. 漫画上色:漫画艺术家可以使用MangaNinja快速为黑白线稿上色,提高创作效率,保持角色和场景的一致性。
  2. 动画制作:动画工作室可以利用MangaNinja加速动画帧的上色过程,尤其是在处理大量相似帧时,确保色彩的一致性和细节的准确性。
  3. 游戏开发:游戏开发者可以使用MangaNinja为游戏中的角色和场景线稿快速上色,提升游戏的视觉效果和开发效率。
  4. 数字艺术创作:数字艺术家可以利用MangaNinja的精细控制功能,为复杂的数字艺术作品进行上色,实现独特的视觉效果。
  5. 教育和培训:在艺术和设计教育中,MangaNinja可以作为教学工具,帮助学生学习色彩搭配和上色技巧,提高艺术创作能力。
  6. 内容创作和媒体制作:内容创作者和媒体制作公司可以使用MangaNinja为各种媒体内容(如网络漫画、短片、广告等)快速上色,提升内容的吸引力和专业度。

MangaNinja项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...