InternVideo2.5：南京大学等推出的新型视频多模态大模型

0 70

InternVideo2.5简介

InternVideo2.5是由上海人工智能实验室、南京大学和中国科学院深圳先进技术研究院联合开发的新型视频多模态大模型。该模型专注于通过长且丰富的上下文建模来提升视频理解能力。开发团队通过创新的层次化Token压缩技术和任务偏好优化方法，使InternVideo2.5能够在处理长视频输入时显著提升性能，同时增强对细粒度视觉细节的感知能力。此外，该模型在多个视频理解基准测试中取得了领先性能，尤其是在长视频理解和特定视觉任务方面表现出色，为未来视频多模态大语言模型的研究提供了新的方向和思路。

InternVideo2.5主要功能

长视频理解：InternVideo2.5能够处理比原始模型长至少6倍的视频输入，显著提升了视频记忆容量。
细粒度视觉分析：通过任务偏好优化（TPO），InternVideo2.5在目标跟踪、实例分割等细粒度视觉任务上表现出色。
多模态上下文处理：模型能够整合视频帧、音频和文本等多模态输入，进行长时间的上下文理解和推理。
视频问答：在多个视频问答基准测试中，InternVideo2.5表现优异，能够回答关于视频内容的复杂问题。
目标检测与跟踪：模型具备高精度的目标检测和跟踪能力，适用于监控视频分析等场景。

InternVideo2.5技术原理

层次化Token压缩（HiCo）：
- 自适应时间采样：根据视频时长和内容特征调整采样策略，短序列采用密集采样，长序列采用稀疏采样。
- 时空Token合并：通过语义相似性进行Token合并，减少冗余信息，同时保留关键时空信息。
- 多模态Token Dropout：在语言模型处理阶段，通过Token Dropout进一步优化长距离视觉理解，保留任务相关的关键信息。
任务偏好优化（TPO）：
- 视觉感知偏好：通过直接偏好优化（DPO）将密集的视觉任务注释转移到MLLM中，增强模型对视频细节的感知能力。
- 多任务学习：集成多任务学习框架，结合任务特定的头部模块（如时间对齐、实例分割等），提升模型在特定视觉任务上的性能。
多阶段训练策略：
- 基础学习阶段：通过多样化的对话模板进行任务识别指令微调，建立基本的视觉-语言连接。
- 细粒度感知训练阶段：集成任务特定组件，使用任务特定数据集进行训练，提升模型的视觉理解能力。
- 综合训练阶段：在多模态对话和特定任务数据集上进行多任务训练，优化模型的所有组件，提升长视频理解和细粒度感知能力。
分布式系统：
- 多模态序列并行系统：基于XTuner开发的分布式系统，支持长视频的高效计算，集成序列和张量分布式处理。
- 动态数据打包：采用动态打包策略，最大化GPU内存使用效率，提升训练速度。