SAMURAI：能够在视频序列中实时跟踪目标对象

0 70

SAMURAI简介

SAMURAI是一种基于Segment Anything Model 2（SAM 2）的增强型视觉目标跟踪框架，专门设计用于处理快速移动或自遮挡目标的挑战。它通过整合时序运动线索和运动感知记忆选择机制，实现了无需重新训练或微调的鲁棒和准确跟踪。SAMURAI能够实时运行，并在多个基准数据集上展现出强大的零样本性能，证明了其在复杂视频场景中的泛化能力和实际应用潜力。

SAMURAI主要功能

实时视觉目标跟踪：SAMURAI能够在视频序列中实时跟踪目标对象。
零样本学习：无需额外训练或微调，即可在多个数据集上实现跟踪任务。
运动感知预测：通过运动建模系统预测目标的运动，提高在复杂场景中的跟踪精度。
优化记忆管理：通过运动感知记忆选择机制，优化存储与目标相关的历史信息，减少错误传播。
泛化能力：在不同的基准数据集上展现出良好的性能，证明了其泛化能力。

SAMURAI技术原理

运动建模系统：
- 采用基于Kalman Filter的方法预测目标的运动状态。
- 结合目标的掩模和预测的运动状态，计算KF-IoU分数，辅助选择最有可能的掩模。
- 通过加权KF-IoU分数和原始亲和力分数来选择最终输出掩模。
运动感知记忆选择机制：
- 使用混合评分系统，结合掩模亲和力、目标和运动分数来选择保留相关历史信息的帧。
- 选择满足特定阈值的掩模亲和力分数、目标发生分数和运动分数的帧作为记忆。
- 通过迭代验证选择Nmem个记忆，构建运动感知记忆库，用于当前帧的掩模解码。
无需重新训练或微调：
- SAMURAI直接集成到现有的SAM 2模型中，无需对模型进行额外的训练或微调。
- 通过改进预测掩模的选择，不增加额外的计算开销，提供可靠的在线VOT解决方案。
模型无关性：
- 提出的模块具有模型无关性，有潜力应用于其他跟踪框架。
实时性能：
- 在NVIDIA RTX 4090 GPU上的运行时间测量与基线模型保持一致，表明SAMURAI在保持实时性能的同时进行了功能增强。