Long-VITA:腾讯联合南大、厦大等开源的长文本多模态模型
Long-VITA简介
Long-VITA是由腾讯优图实验室、南京大学和厦门大学联合开发的开源长文本多模态模型。该模型专注于提升视觉-语言模型在长文本和长视频理解方面的能力,能够处理超过100万tokens的输入。通过分阶段训练策略,Long-VITA在多个基准测试中展现出卓越的性能,尤其是在视觉问答、多模态对话和长视频理解任务上。开发团队通过创新的架构设计和高效的训练方法,使Long-VITA在仅使用开源数据的情况下,达到了与商业模型相媲美的水平。这一成果不仅为开源社区提供了强大的工具,也为长文本多模态理解的研究和应用提供了新的方向。

Long-VITA主要功能
-
长文本处理:能够处理超过100万tokens的长文本输入,适用于长文档、长对话和长视频的理解和分析。
-
多模态理解:支持图像、视频和文本的多模态输入,能够同时处理和分析多种感官数据。
-
高分辨率图像处理:通过动态铺瓷砖视觉编码策略,高效处理高分辨率图像,适用于高清图像和视频的分析。
-
视频理解:支持长视频的理解和分析,能够处理长达1小时的视频内容。
-
开源数据训练:完全基于开源数据进行训练,提供了强大的开源工具,促进了多模态AI系统的开发和应用。
Long-VITA技术原理
-
分阶段训练策略:
-
阶段1:视觉-语言对齐:冻结语言模型和视觉编码器,仅训练视觉投影器,使用图像字幕数据进行预训练。
-
阶段2:通用知识学习:利用图像-文本数据进行多任务学习,包括图像字幕、视觉问答等,并加入纯文本数据。
-
阶段3:长序列微调(128K):扩展上下文长度至128K,加入长文本指令和漫画书摘要数据。
-
阶段4:长序列微调(1M):进一步扩展至1M tokens,加入电影摘要数据。
-
-
多模态架构设计:
-
视觉编码器:使用InternViT-300M作为视觉编码器,通过动态铺瓷砖视觉编码策略高效处理高分辨率图像。
-
投影器:采用2层MLP将图像特征投影到词嵌入空间,并通过像素洗牌减少视觉tokens的数量。
-
语言模型:选择Qwen2.5-14BInstruct作为语言模型,结合视觉编码器和投影器,实现多模态理解。
-
-
创新的推理技术:
-
上下文并行分布式推理:通过上下文并行分布式推理和张量并行技术,支持无限长度的图像和文本tokens输入。
-
Logits掩码语言建模头:通过掩码隐藏特征,仅传递预测下一个tokens的隐藏特征,显著减少内存消耗。
-
-
数据集构建:
-
Comic-9K:包含9K漫画书及其详细摘要的数据集,共计200K图像,每个样本平均包含20张高分辨率照片。
-
MovieNet-Summary:电影与摘要的配对数据集,增强模型对长文本和长视频的理解能力。
-
Long-VITA应用场景
-
长视频内容理解:用于分析和总结长视频,如电影、纪录片或教学视频,帮助用户快速获取视频的核心内容。
-
高分辨率图像分析:适用于处理高分辨率图像,例如卫星图像、医学影像或艺术作品,支持详细的内容分析和特征提取。
-
长文本生成与总结:能够处理和生成长篇文本,如小说、报告或论文,支持内容创作和自动摘要。
-
多模态对话系统:结合图像、视频和文本输入,支持智能助手或客服系统中的多模态对话,提供更丰富的交互体验。
-
教育与学习辅助:为在线教育平台提供长文本和长视频的理解功能,帮助学生更好地学习和复习课程内容。
-
内容创作与编辑:辅助创作者进行视频脚本撰写、图像描述生成或长文内容创作,提高创作效率和质量。
Long-VITA项目入口
- GitHub代码库:https://github.com/VITA-MLLM/Long-VITA
- HuggingFace:https://huggingface.co/VITA-MLLM
- arXiv技术论文:https://arxiv.org/pdf/2502.05177v1
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...