Video-XL：智源联合多数高校推出的超长视频理解大模型

0 20

Video-XL简介

Video-XL是智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校联合推出的超长视觉语言模型，专为小时级视频理解而设计。该模型通过创新的视觉上下文潜在摘要技术，将复杂的视频信息压缩成紧凑的形式，有效处理长视频中的视觉标记，同时保持高效率和准确性。Video-XL在多个长视频理解基准测试中取得了突破性成果，展现了其在处理和理解超长视频内容方面的卓越能力。

Video-XL主要功能

小时级视频理解：Video-XL能够处理长达小时级别的视频内容，提供深入的视频理解能力。
视觉压缩：通过Visual Context Latent Summarization技术，将长视频中的视觉信息压缩成更紧凑的形式，以适应模型处理。
多模态数据处理：统一处理单图像、多图像和视频数据，使用统一的视觉编码方案。
长视频特定任务处理：除了一般视频理解任务外，Video-XL还适用于电影摘要、监控异常检测和广告放置识别等特定长视频任务。

Video-XL技术原理

视觉上下文潜在摘要（Visual Context Latent Summarization）：
- 引入视觉摘要标记（VSTs），将视觉信号压缩成VSTs的激活形式。
- 使用滑动窗口和自回归方法处理压缩后的视觉信号。
统一视觉编码方案：
- 将单图像、多图像和视频统一编码为视觉标记，实现多模态数据的统一处理。
- 对于视频，采用每秒采样一帧或均匀采样128帧的方法处理。
跨模态投影器：
- 使用两层MLP（多层感知机）和GELU激活函数作为跨模态投影器，对齐视觉编码器和LLM。
灵活的压缩比率：
- 在训练过程中，随机选择压缩比率，以支持不同的压缩粒度。
- 在推理阶段，可以根据特定的效率需求选择一个压缩比率。
两阶段训练策略：
- 预训练阶段：使用Laion-2M数据集优化投影器。
- 微调阶段：应用视觉指令调整优化投影器和LLM的所有参数，并解冻视觉编码器以捕获时间特征的改进表示。
长视频数据集VICO：
- 开发专门用于长视频理解的高质量数据集VICO，包含多样化、开放领域的长视频内容。
- VICO挑战模型检索关键帧和检测时间变化，提高长视频理解能力。