VISTA：提升对长时和高分辨率视频的理解能力

0 80

VISTA简介

VISTA是一个由加拿大滑铁卢大学和Vector Institute联合开发的创新框架，旨在通过视频时空增强技术提升对长时和高分辨率视频的理解能力。该框架通过合成现有视频字幕数据集中的长时和高分辨率视频指令对，创造出新的视频样本，并生成相应的问答对，以增强视频多模态模型的性能。VISTA项目团队通过开发七种视频增强方法和构建VISTA-400K数据集，显著提高了视频理解模型在多个基准测试中的表现。

VISTA主要功能

视频时空增强：VISTA通过合成现有视频数据集中的长时和高分辨率视频指令对，增强模型对复杂视频内容的理解能力。
数据集构建：创建VISTA-400K，一个包含约400K个条目的高质量视频指令-跟随数据集，专门针对长时和高分辨率视频理解任务。
性能提升：通过在VISTA数据集上微调，提高了视频多模态模型（LMMs）在多个长视频理解基准上的平均性能。

VISTA技术原理

视频混合与组合：利用图像和视频分类中的数据增强技术，如CutMix和VideoMix，VISTA在空间和时间上混合视频，创建具有更长时长和更高分辨率的合成视频样本。
指令数据合成：基于合成的视频，使用高级语言模型（如Gemini-1.5-Pro）生成相关的问答对，以创建用于训练和评估的视频指令数据。
多模态学习：通过结合视频内容和语言描述，VISTA促进模型学习视频内容的时空特征，提高对视频的理解能力。
数据集多样性：VISTA-400K数据集包含多种视频增强方法，如长视频字幕生成、事件关系问答、视频针堆（NIAH）问答等，以覆盖不同的视频理解和推理任务。
高分辨率视频理解：引入HRVideoBench基准，专注于评估模型对高分辨率视频中细节的感知和理解能力，特别是在自动驾驶和视频监控等实际应用中的重要性。