DiffuEraser：阿里通义推出的视频修复技术

0 80

DiffuEraser简介

DiffuEraser是由阿里巴巴集团通义实验室开发的一种基于稳定扩散模型的视频修复技术。它旨在通过强大的生成能力解决视频中大范围遮挡区域的修复问题，同时保持内容的细节和时间一致性。DiffuEraser通过将视频修复任务分解为已知像素的传播、未知像素的生成以及完成内容的时间一致性三个子问题，并针对每个子问题提出了定制化的解决方案。该模型通过引入先验信息来减少噪声伪影和抑制幻觉，同时利用视频扩散模型的时间平滑特性来增强长序列推理中的时间连续性。DiffuEraser在实验中展现了优于现有最先进方法的性能，尤其在纹理质量和时间一致性方面表现出色，为视频修复领域带来了新的突破。

DiffuEraser主要功能

视频修复：填补视频中被遮挡的区域，使其内容合理且与周围帧一致。
细节生成：生成更详细和精细的纹理，克服传统方法中的模糊和马赛克伪影问题。
时间一致性：确保长序列视频中不同片段之间的内容在时间上的连续性和一致性。
噪声抑制：通过引入先验信息，减少生成过程中出现的噪声伪影和不必要的视觉幻觉。

DiffuEraser技术原理

基于稳定扩散模型：
- 利用扩散模型的强大生成能力来生成细节丰富且结构完整的内容。
- 通过扩散过程逐步去噪，生成高质量的修复结果。
注入先验信息：
- 在推理过程中引入先验信息（例如通过DDIM Inversion技术），提供初始条件以减少噪声伪影。
- 先验信息作为弱条件，抑制不必要的对象生成，确保生成内容的稳定性和准确性。
时间一致性优化：
- 扩展时间感受野：通过预传播或预推理步骤，处理整个视频序列，确保已知像素的全面传播和未知像素的一致生成。
- 时间平滑特性：利用视频扩散模型的时间平滑特性，在序列时间步之间采用交错去噪方法，增强片段之间的平滑过渡。
网络架构：
- 主去噪UNet：处理噪声潜在变量，生成最终输出。
- BrushNet分支：从遮挡图像中提取特征，并逐层添加到主去噪UNet中，增强内容生成能力。
- 时间注意力机制：在自注意力和交叉注意力层之后加入时间注意力机制，进一步提高时间一致性。
两阶段训练策略：
- 第一阶段：训练BrushNet和主去噪UNet以增强内容生成能力。
- 第二阶段：训练主去噪UNet的运动模块以提高时间一致性。