Long-VITA：腾讯联合南大、厦大等开源的长文本多模态模型

0 10

Long-VITA简介

Long-VITA是由腾讯优图实验室、南京大学和厦门大学联合开发的开源长文本多模态模型。该模型专注于提升视觉-语言模型在长文本和长视频理解方面的能力，能够处理超过100万tokens的输入。通过分阶段训练策略，Long-VITA在多个基准测试中展现出卓越的性能，尤其是在视觉问答、多模态对话和长视频理解任务上。开发团队通过创新的架构设计和高效的训练方法，使Long-VITA在仅使用开源数据的情况下，达到了与商业模型相媲美的水平。这一成果不仅为开源社区提供了强大的工具，也为长文本多模态理解的研究和应用提供了新的方向。

Long-VITA主要功能

长文本处理：能够处理超过100万tokens的长文本输入，适用于长文档、长对话和长视频的理解和分析。
多模态理解：支持图像、视频和文本的多模态输入，能够同时处理和分析多种感官数据。
高分辨率图像处理：通过动态铺瓷砖视觉编码策略，高效处理高分辨率图像，适用于高清图像和视频的分析。
视频理解：支持长视频的理解和分析，能够处理长达1小时的视频内容。
开源数据训练：完全基于开源数据进行训练，提供了强大的开源工具，促进了多模态AI系统的开发和应用。

Long-VITA技术原理

分阶段训练策略：
- 阶段1：视觉-语言对齐：冻结语言模型和视觉编码器，仅训练视觉投影器，使用图像字幕数据进行预训练。
- 阶段2：通用知识学习：利用图像-文本数据进行多任务学习，包括图像字幕、视觉问答等，并加入纯文本数据。
- 阶段3：长序列微调（128K）：扩展上下文长度至128K，加入长文本指令和漫画书摘要数据。
- 阶段4：长序列微调（1M）：进一步扩展至1M tokens，加入电影摘要数据。
多模态架构设计：
- 视觉编码器：使用InternViT-300M作为视觉编码器，通过动态铺瓷砖视觉编码策略高效处理高分辨率图像。
- 投影器：采用2层MLP将图像特征投影到词嵌入空间，并通过像素洗牌减少视觉tokens的数量。
- 语言模型：选择Qwen2.5-14BInstruct作为语言模型，结合视觉编码器和投影器，实现多模态理解。
创新的推理技术：
- 上下文并行分布式推理：通过上下文并行分布式推理和张量并行技术，支持无限长度的图像和文本tokens输入。
- Logits掩码语言建模头：通过掩码隐藏特征，仅传递预测下一个tokens的隐藏特征，显著减少内存消耗。
数据集构建：
- Comic-9K：包含9K漫画书及其详细摘要的数据集，共计200K图像，每个样本平均包含20张高分辨率照片。
- MovieNet-Summary：电影与摘要的配对数据集，增强模型对长文本和长视频的理解能力。