InternVideo2.5:南京大学等推出的新型视频多模态大模型

InternVideo2.5简介

InternVideo2.5是由上海人工智能实验室、南京大学和中国科学院深圳先进技术研究院联合开发的新型视频多模态大模型。该模型专注于通过长且丰富的上下文建模来提升视频理解能力。开发团队通过创新的层次化Token压缩技术和任务偏好优化方法,使InternVideo2.5能够在处理长视频输入时显著提升性能,同时增强对细粒度视觉细节的感知能力。此外,该模型在多个视频理解基准测试中取得了领先性能,尤其是在长视频理解和特定视觉任务方面表现出色,为未来视频多模态大语言模型的研究提供了新的方向和思路。

InternVideo2.5:南京大学等推出的新型视频多模态大模型

InternVideo2.5主要功能

  1. 长视频理解:InternVideo2.5能够处理比原始模型长至少6倍的视频输入,显著提升了视频记忆容量。
  2. 细粒度视觉分析:通过任务偏好优化(TPO),InternVideo2.5在目标跟踪、实例分割等细粒度视觉任务上表现出色。
  3. 多模态上下文处理:模型能够整合视频帧、音频和文本等多模态输入,进行长时间的上下文理解和推理。
  4. 视频问答:在多个视频问答基准测试中,InternVideo2.5表现优异,能够回答关于视频内容的复杂问题。
  5. 目标检测与跟踪:模型具备高精度的目标检测和跟踪能力,适用于监控视频分析等场景。

InternVideo2.5技术原理

  1. 层次化Token压缩(HiCo)
    • 自适应时间采样:根据视频时长和内容特征调整采样策略,短序列采用密集采样,长序列采用稀疏采样。
    • 时空Token合并:通过语义相似性进行Token合并,减少冗余信息,同时保留关键时空信息。
    • 多模态Token Dropout:在语言模型处理阶段,通过Token Dropout进一步优化长距离视觉理解,保留任务相关的关键信息。
  2. 任务偏好优化(TPO)
    • 视觉感知偏好:通过直接偏好优化(DPO)将密集的视觉任务注释转移到MLLM中,增强模型对视频细节的感知能力。
    • 多任务学习:集成多任务学习框架,结合任务特定的头部模块(如时间对齐、实例分割等),提升模型在特定视觉任务上的性能。
  3. 多阶段训练策略
    • 基础学习阶段:通过多样化的对话模板进行任务识别指令微调,建立基本的视觉-语言连接。
    • 细粒度感知训练阶段:集成任务特定组件,使用任务特定数据集进行训练,提升模型的视觉理解能力。
    • 综合训练阶段:在多模态对话和特定任务数据集上进行多任务训练,优化模型的所有组件,提升长视频理解和细粒度感知能力。
  4. 分布式系统
    • 多模态序列并行系统:基于XTuner开发的分布式系统,支持长视频的高效计算,集成序列和张量分布式处理。
    • 动态数据打包:采用动态打包策略,最大化GPU内存使用效率,提升训练速度。

InternVideo2.5应用场景

  1. 视频内容理解与问答:能够理解视频中的复杂情节,并回答用户关于视频内容的问题,适用于教育视频、影视作品、新闻报道等。
  2. 监控视频分析:对监控视频进行实时分析,检测异常行为或特定事件,如人员入侵、车辆违规等,提升安防监控的智能化水平。
  3. 视频编辑与创作:辅助视频创作者进行内容创作,提供视频内容的自动标注、剪辑建议、字幕生成等功能,提高创作效率。
  4. 自动驾驶辅助:处理车载摄像头的视频流,实时识别道路状况、交通标志和障碍物,为自动驾驶系统提供决策支持。
  5. 医疗视频分析:分析医学影像视频,辅助医生进行疾病诊断,如内窥镜检查、手术视频分析等,提高诊断的准确性和效率。
  6. 智能客服与虚拟助手:结合视频通话,理解用户的问题并提供可视化答案,提升客户服务体验,适用于在线购物、技术支持等场景。

InternVideo2.5项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...