Long-VITA:腾讯联合南大、厦大等开源的长文本多模态模型

Long-VITA简介

Long-VITA是由腾讯优图实验室、南京大学和厦门大学联合开发的开源长文本多模态模型。该模型专注于提升视觉-语言模型在长文本和长视频理解方面的能力,能够处理超过100万tokens的输入。通过分阶段训练策略,Long-VITA在多个基准测试中展现出卓越的性能,尤其是在视觉问答、多模态对话和长视频理解任务上。开发团队通过创新的架构设计和高效的训练方法,使Long-VITA在仅使用开源数据的情况下,达到了与商业模型相媲美的水平。这一成果不仅为开源社区提供了强大的工具,也为长文本多模态理解的研究和应用提供了新的方向。

Long-VITA:腾讯联合南大、厦大等开源的长文本多模态模型

Long-VITA主要功能

  1. 长文本处理:能够处理超过100万tokens的长文本输入,适用于长文档、长对话和长视频的理解和分析。
  2. 多模态理解:支持图像、视频和文本的多模态输入,能够同时处理和分析多种感官数据。
  3. 高分辨率图像处理:通过动态铺瓷砖视觉编码策略,高效处理高分辨率图像,适用于高清图像和视频的分析。
  4. 视频理解:支持长视频的理解和分析,能够处理长达1小时的视频内容。
  5. 开源数据训练:完全基于开源数据进行训练,提供了强大的开源工具,促进了多模态AI系统的开发和应用。

Long-VITA技术原理

  1. 分阶段训练策略
    • 阶段1:视觉-语言对齐:冻结语言模型和视觉编码器,仅训练视觉投影器,使用图像字幕数据进行预训练。
    • 阶段2:通用知识学习:利用图像-文本数据进行多任务学习,包括图像字幕、视觉问答等,并加入纯文本数据。
    • 阶段3:长序列微调(128K):扩展上下文长度至128K,加入长文本指令和漫画书摘要数据。
    • 阶段4:长序列微调(1M):进一步扩展至1M tokens,加入电影摘要数据。
  2. 多模态架构设计
    • 视觉编码器:使用InternViT-300M作为视觉编码器,通过动态铺瓷砖视觉编码策略高效处理高分辨率图像。
    • 投影器:采用2层MLP将图像特征投影到词嵌入空间,并通过像素洗牌减少视觉tokens的数量。
    • 语言模型:选择Qwen2.5-14BInstruct作为语言模型,结合视觉编码器和投影器,实现多模态理解。
  3. 创新的推理技术
    • 上下文并行分布式推理:通过上下文并行分布式推理和张量并行技术,支持无限长度的图像和文本tokens输入。
    • Logits掩码语言建模头:通过掩码隐藏特征,仅传递预测下一个tokens的隐藏特征,显著减少内存消耗。
  4. 数据集构建
    • Comic-9K:包含9K漫画书及其详细摘要的数据集,共计200K图像,每个样本平均包含20张高分辨率照片。
    • MovieNet-Summary:电影与摘要的配对数据集,增强模型对长文本和长视频的理解能力。

Long-VITA应用场景

  1. 长视频内容理解:用于分析和总结长视频,如电影、纪录片或教学视频,帮助用户快速获取视频的核心内容。
  2. 高分辨率图像分析:适用于处理高分辨率图像,例如卫星图像、医学影像或艺术作品,支持详细的内容分析和特征提取。
  3. 长文本生成与总结:能够处理和生成长篇文本,如小说、报告或论文,支持内容创作和自动摘要。
  4. 多模态对话系统:结合图像、视频和文本输入,支持智能助手或客服系统中的多模态对话,提供更丰富的交互体验。
  5. 教育与学习辅助:为在线教育平台提供长文本和长视频的理解功能,帮助学生更好地学习和复习课程内容。
  6. 内容创作与编辑:辅助创作者进行视频脚本撰写、图像描述生成或长文内容创作,提高创作效率和质量。

Long-VITA项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...