SeedVR：能够从低质量输入视频中重建出高质量的输出视频

0 80

SeedVR简介

SeedVR是由Nanyang Technological University和ByteDance联合开发的一款创新的扩散变换器模型，旨在实现高质量的通用视频修复。该模型通过引入移位窗口注意力机制和因果视频自编码器，有效克服了传统扩散模型在处理任意长度和分辨率视频时面临的分辨率限制和计算成本问题。SeedVR在多个合成和真实世界视频数据集上均展现出卓越的性能，不仅能够精细地去除视频中的退化，还能生成逼真的纹理细节，大幅提升视频的视觉真实感和帧间一致性。此外，SeedVR在保持高效性能的同时，速度是现有扩散模型的两倍以上，具有较高的实用性和推广潜力。

SeedVR主要功能

高质量视频修复：能够从低质量输入视频中重建出高质量的输出视频，恢复视频中的细节和纹理。
处理任意长度和分辨率的视频：不受视频长度和分辨率的限制，能够有效处理长时长、高分辨率的视频修复任务。
去除视频退化：有效去除视频中的各种退化，如模糊、噪声等，提升视频的清晰度和质量。
生成逼真纹理：在修复过程中，能够生成逼真的纹理细节，使修复后的视频更加真实自然。

SeedVR技术原理

扩散变换器（DiT）模型：基于扩散模型架构，利用变换器模型的自注意力机制，实现对视频特征的有效建模和修复。
移位窗口注意力机制：
- 采用大非重叠窗口注意力，将全自注意力替换为窗口注意力机制，窗口大小为64×64，远大于传统低级视觉任务中的8×8像素空间，能够有效降低计算成本，提升视频修复质量。
- 引入3D旋转位置嵌入，适应边界处的不均匀3D窗口，克服传统窗口注意力的分辨率限制，使模型能够处理任意分辨率的视频输入。
因果视频自编码器（CVVAE）：
- 从头开始训练，使用因果3D残差块捕获时空表示，提高视频的时空一致性。
- 增加潜在通道至16，提高模型容量和重建质量。
- 应用时间压缩因子4，提升视频编码效率，减少计算成本。
大规模训练策略：
- 在图像和视频数据上同时训练，收集大规模的混合数据集，包含约1亿张图像和500万视频，提高模型的泛化能力。
- 预计算高质量和低质量视频潜在特征及文本嵌入，加快训练速度，提高训练效率。
- 逐步增加分辨率和时长，从短小视频逐步过渡到更长更高分辨率的视频，使模型能够适应不同尺度的视频输入。
- 通过向潜在低质量条件注入噪声，增强模型的生成能力，提升修复效果。