Video Depth Anything：能够处理数分钟以上的超长视频

0 50

Video Depth Anything简介

Video Depth Anything是一种新型的深度估计模型，专门用于超长视频（数分钟以上）的高质量、时间一致的深度预测。该模型基于Depth Anything V2改进，通过引入轻量级的空间-时间头（STH）和时间梯度匹配损失（TGM），在不牺牲效率的情况下实现了对长视频的深度估计。它在多个视频基准测试中表现出色，不仅在空间精度（如AbsRel和δ1指标）上优于现有方法，还在时间稳定性（如TAE指标）上取得了显著优势。此外，Video Depth Anything还支持实时性能，其小版本模型能够以30 FPS的速度运行，适用于多种实际应用场景，如3D视频转换和密集点云生成。

Video Depth Anything主要功能

超长视频深度估计：能够处理数分钟以上的超长视频，生成高质量且时间一致的深度预测。
实时性能：支持实时深度估计，小版本模型（VDA-S）能够以30 FPS的速度运行。
高空间精度：在多个视频基准测试中，模型在几何精度（如AbsRel和δ1指标）上表现出色。
时间一致性：通过时间梯度匹配损失（TGM），模型在时间稳定性（如TAE指标）上取得了显著优势。
多场景适应性：适用于多种实际应用场景，如3D视频转换和密集点云生成。

Video Depth Anything技术原理

基于Depth Anything V2：模型基于Depth Anything V2改进，保留了其强大的泛化能力和计算效率。
空间-时间头（Spatio-Temporal Head, STH）：
- 设计：包含四个时间注意力层，专门用于处理每个空间位置的时间维度信息。
- 功能：引入时间信息交互，避免因有限视频数据导致的特征表示损坏。
时间梯度匹配损失（Temporal Gradient Matching Loss, TGM）：
- 设计：通过约束深度预测的时间梯度与真实值的时间梯度一致，提高模型的时间一致性。
- 优势：无需额外的几何或生成先验，避免了依赖光流的假设。
联合训练策略：
- 数据集：在包含550K带深度注释的视频帧和62万未标记图像的数据集上进行训练。
- 方法：采用监督学习和自训练相结合的方式，确保模型在保持原有能力的同时，增强其时间一致性。
长视频推理策略：
- 分段处理：每个新的视频段会与前一个视频段的8个重叠帧和2个关键帧拼接，形成总共32帧的输入。
- 平滑过渡：通过在两个连续窗口之间逐渐插值重叠帧，确保平滑过渡，避免深度预测的闪烁和漂移。