LVCD：将线条艺术作品（如动画草图）转换成彩色视频

0 30

LVCD简介

LVCD是由香港城市大学和腾讯公司微信团队共同开发的一种创新视频着色技术。这项技术基于扩散模型，能够将线条图视频与参考图像相结合，生成具有长时间一致性的彩色动画视频。LVCD通过引入草图引导控制网络和参考注意力机制，显著提升了动画视频的色彩质量和动作连贯性，特别适合处理包含复杂动作的场景。这项工作不仅展示了视频生成领域的最新进展，还为动画产业的自动化和效率提升提供了新的可能性。

LVCD主要功能

视频着色： 将线条艺术作品（如动画草图）转换成彩色视频。
时间一致性： 确保视频中的色彩随时间变化保持连贯性。
处理复杂动作： 能够处理视频中的快速和复杂动作，避免色彩错误和不一致。
高质量生成： 生成高分辨率且视觉上吸引人的动画视频。
长视频支持： 能够扩展到长视频的生成，超越了传统固定长度视频生成的限制。

LVCD技术原理

视频扩散框架： 利用大规模预训练的视频扩散模型生成动画视频。
Sketch-guided ControlNet： 扩展了ControlNet，增加了对线条草图的额外控制，以指导动画的布局和结构。
参考注意力（Reference Attention）： 通过替换原始空间注意力层，促进参考帧与连续生成帧之间的长距离空间匹配。
顺序采样方案： 引入了重叠混合模块和前参考注意力，以实现长视频颜色化。
重叠混合模块（Overlapped Blending Module）： 在视频分段生成时，使用重叠帧来保持长期时间一致性。
前参考注意力（Prev-Reference Attention）： 增强了在空间自注意力层内的时间传播，使得非重叠帧能够从重叠帧中查询信息。
预训练模型： 使用预训练的Stable Video Diffusion（SVD）模型作为基础，通过微调来适应线条视频着色任务。
数据集训练： 使用宫崎骏执导的六部电影作为训练数据集，并通过特定的量化和筛选流程来准备训练视频片段。
评估指标： 引入了新的评估指标，如ED Map Difference（EDMD）和Temporal Consistency（TC），以更有效地评估生成动画的质量。