Video-XL:智源联合多数高校推出的超长视频理解大模型

Video-XL简介

Video-XL是智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校联合推出的超长视觉语言模型,专为小时级视频理解而设计。该模型通过创新的视觉上下文潜在摘要技术,将复杂的视频信息压缩成紧凑的形式,有效处理长视频中的视觉标记,同时保持高效率和准确性。Video-XL在多个长视频理解基准测试中取得了突破性成果,展现了其在处理和理解超长视频内容方面的卓越能力。

Video-XL:智源联合多数高校推出的超长视频理解大模型

Video-XL主要功能

  1. 小时级视频理解:Video-XL能够处理长达小时级别的视频内容,提供深入的视频理解能力。
  2. 视觉压缩:通过Visual Context Latent Summarization技术,将长视频中的视觉信息压缩成更紧凑的形式,以适应模型处理。
  3. 多模态数据处理:统一处理单图像、多图像和视频数据,使用统一的视觉编码方案。
  4. 长视频特定任务处理:除了一般视频理解任务外,Video-XL还适用于电影摘要、监控异常检测和广告放置识别等特定长视频任务。

Video-XL技术原理

  1. 视觉上下文潜在摘要(Visual Context Latent Summarization)
    • 引入视觉摘要标记(VSTs),将视觉信号压缩成VSTs的激活形式。
    • 使用滑动窗口和自回归方法处理压缩后的视觉信号。
  2. 统一视觉编码方案
    • 将单图像、多图像和视频统一编码为视觉标记,实现多模态数据的统一处理。
    • 对于视频,采用每秒采样一帧或均匀采样128帧的方法处理。
  3. 跨模态投影器
    • 使用两层MLP(多层感知机)和GELU激活函数作为跨模态投影器,对齐视觉编码器和LLM。
  4. 灵活的压缩比率
    • 在训练过程中,随机选择压缩比率,以支持不同的压缩粒度。
    • 在推理阶段,可以根据特定的效率需求选择一个压缩比率。
  5. 两阶段训练策略
    • 预训练阶段:使用Laion-2M数据集优化投影器。
    • 微调阶段:应用视觉指令调整优化投影器和LLM的所有参数,并解冻视觉编码器以捕获时间特征的改进表示。
  6. 长视频数据集VICO
    • 开发专门用于长视频理解的高质量数据集VICO,包含多样化、开放领域的长视频内容。
    • VICO挑战模型检索关键帧和检测时间变化,提高长视频理解能力。

Video-XL应用场景

  1. 电影摘要:自动生成电影的简要概述,提取主要情节和角色信息。
  2. 监控视频分析:识别和检测监控视频中的异常行为或事件,提高安全性。
  3. 广告投放识别:分析视频内容,识别广告投放的时机和效果。
  4. 体育赛事分析:对长时间的体育赛事进行回放分析,提取关键时刻和精彩片段。
  5. 教育视频理解:自动提取教育视频中的关键信息,辅助学习和复习。
  6. 社交媒体内容分析:分析用户生成的长视频内容,提取主题和情感,提升推荐系统的效果。

Video-XL项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...