Light-A-Video：实现高质量、时间连贯的视频重光照效果

0 50

Light-A-Video简介

Light-A-Video是一种创新的训练免费视频重光照方法，旨在通过预训练的图像重光照模型和视频扩散模型实现高质量、时间连贯的视频重光照效果。它通过引入Consistent Light Attention（CLA）模块和Progressive Light Fusion（PLF）策略，解决了传统方法中光照源不稳定和时间连贯性不足的问题。CLA模块通过增强帧间交互，稳定背景光照源的生成；而PLF策略则通过逐步融合重光照目标，确保视频外观的时间一致性。该方法不仅支持对整个视频的重光照，还能处理前景序列并生成与描述一致的背景。实验表明，Light-A-Video在保持时间连贯性的同时，显著提升了重光照质量，为视频编辑和内容创作提供了强大的工具。

Light-A-Video主要功能

实现无需训练的视频重光照：Light-A-Video能够直接对任意视频序列进行重光照处理，无需额外的训练或优化过程，大大降低了使用门槛。
保持时间连贯性：通过增强帧间光照一致性和稳定性，确保视频在重光照后仍具有流畅的视觉效果，避免闪烁和光照不连贯的问题。
支持前景重光照与背景生成：不仅可以对整个视频进行重光照，还能对前景对象单独重光照，并生成与文本描述一致的背景，满足多样化的视频编辑需求。
高质量图像重光照效果：借助先进的图像重光照模型，Light-A-Video能够实现与图像重光照相当的高质量效果，同时保持视频的时间一致性。

Light-A-Video技术原理

Consistent Light Attention (CLA) 模块
- 增强帧间交互：通过在图像重光照模型的自注意力层中引入额外的时间平均特征，促进帧间信息交流，稳定背景光照源的生成。
- 双流注意力融合：结合原始流和平均流的输出，平衡细节保留和光照稳定性，避免因帧间平均化导致的细节丢失。
Progressive Light Fusion (PLF) 策略
- 线性混合光照：基于光传输的独立性原理，通过线性混合源视频外观和重光照外观，逐步引导视频去噪过程向期望的重光照方向发展。
- 动态融合权重：随着去噪过程的推进，逐渐减小重光照目标的影响，平滑地注入光照信息，确保视频外观的时间连贯性。
结合视频扩散模型（VDM）
- 利用视频先验：借助VDM的运动先验和时间一致性建模能力，确保重光照后的视频在运动和光照上保持连贯。
- 去噪过程引导：通过在VDM的去噪过程中注入重光照目标，逐步调整视频的光照效果，实现高质量的重光照。
零样本（Zero-shot）生成
- 无需训练：直接利用预训练的图像重光照模型和视频扩散模型，无需针对视频重光照任务进行额外训练，适用于任意视频输入。
- 文本驱动：通过文本提示指定目标光照条件，实现灵活的视频重光照效果。