Video-XL:智源联合多数高校推出的超长视频理解大模型
Video-XL简介
Video-XL是智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校联合推出的超长视觉语言模型,专为小时级视频理解而设计。该模型通过创新的视觉上下文潜在摘要技术,将复杂的视频信息压缩成紧凑的形式,有效处理长视频中的视觉标记,同时保持高效率和准确性。Video-XL在多个长视频理解基准测试中取得了突破性成果,展现了其在处理和理解超长视频内容方面的卓越能力。
Video-XL主要功能
- 小时级视频理解:Video-XL能够处理长达小时级别的视频内容,提供深入的视频理解能力。
- 视觉压缩:通过Visual Context Latent Summarization技术,将长视频中的视觉信息压缩成更紧凑的形式,以适应模型处理。
- 多模态数据处理:统一处理单图像、多图像和视频数据,使用统一的视觉编码方案。
- 长视频特定任务处理:除了一般视频理解任务外,Video-XL还适用于电影摘要、监控异常检测和广告放置识别等特定长视频任务。
Video-XL技术原理
- 视觉上下文潜在摘要(Visual Context Latent Summarization):
- 引入视觉摘要标记(VSTs),将视觉信号压缩成VSTs的激活形式。
- 使用滑动窗口和自回归方法处理压缩后的视觉信号。
- 统一视觉编码方案:
- 将单图像、多图像和视频统一编码为视觉标记,实现多模态数据的统一处理。
- 对于视频,采用每秒采样一帧或均匀采样128帧的方法处理。
- 跨模态投影器:
- 使用两层MLP(多层感知机)和GELU激活函数作为跨模态投影器,对齐视觉编码器和LLM。
- 灵活的压缩比率:
- 在训练过程中,随机选择压缩比率,以支持不同的压缩粒度。
- 在推理阶段,可以根据特定的效率需求选择一个压缩比率。
- 两阶段训练策略:
- 预训练阶段:使用Laion-2M数据集优化投影器。
- 微调阶段:应用视觉指令调整优化投影器和LLM的所有参数,并解冻视觉编码器以捕获时间特征的改进表示。
- 长视频数据集VICO:
- 开发专门用于长视频理解的高质量数据集VICO,包含多样化、开放领域的长视频内容。
- VICO挑战模型检索关键帧和检测时间变化,提高长视频理解能力。
Video-XL应用场景
- 电影摘要:自动生成电影的简要概述,提取主要情节和角色信息。
- 监控视频分析:识别和检测监控视频中的异常行为或事件,提高安全性。
- 广告投放识别:分析视频内容,识别广告投放的时机和效果。
- 体育赛事分析:对长时间的体育赛事进行回放分析,提取关键时刻和精彩片段。
- 教育视频理解:自动提取教育视频中的关键信息,辅助学习和复习。
- 社交媒体内容分析:分析用户生成的长视频内容,提取主题和情感,提升推荐系统的效果。
Video-XL项目入口
- GitHub代码库:https://github.com/VectorSpaceLab/Video-XL
- arXiv研究论文:https://arxiv.org/pdf/2409.14485
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...