POINTS1.5:腾讯微信推出的多模态大模型

POINTS1.5简介

POINTS1.5是由腾讯微信推出的多模态大模型,旨在提升对现实世界应用的处理能力。该模型在POINTS1.0的基础上进行了重大创新,包括采用NaViT风格的视觉编码器以支持动态高分辨率图像处理,增强了中文处理能力,并引入了严格的数据集过滤方法以优化视觉指令调整。这些改进使得POINTS1.5在OpenCompass排行榜上成为小于10B参数模型中的佼佼者,展现了其卓越的性能和广泛的应用潜力。

POINTS1.5:腾讯微信推出的多模态大模型

POINTS1.5主要功能

  1. 图像处理能力:POINTS1.5能够处理任何分辨率的图像,无需将图像分割成小块(tiles),从而保留了图像的原始空间结构。
  2. 双语支持:模型特别增强了对中文的支持,通过结合手动和自动方法收集和标注了大量的中文图像数据。
  3. 视觉指令调整:通过一系列过滤方法,POINTS1.5能够理解图像内容并展现出强大的指令遵循能力。
  4. 现实世界应用性能:在多个现实世界任务中表现出色,如光学字符识别(OCR)和复杂图表分析。
  5. 排行榜表现:在OpenCompass排行榜上,POINTS1.5在小于10B参数的模型中排名第一。

POINTS1.5技术原理

  1. NaViT风格视觉编码器:替换了原来CLIP视觉编码器,支持原生动态高分辨率,允许模型处理任意分辨率的图像。
  2. MLP投影器:使用两层MLP(多层感知器)和GELU激活函数来引入非线性,将视觉特征映射到文本空间。
  3. 大型语言模型(LLM):与POINTS1.0保持一致,选择了Qwen2.5-7B-Instruct作为基础语言模型,并计划未来引入更大的语言模型。
  4. 数据集过滤:手动审查数据集,使用大型语言模型检测语法错误,并过滤掉不需要图像信息就能回答的问题。
  5. 训练策略:采用分阶段训练方法,首先单独训练视觉编码器,然后在视觉编码器固定的情况下,端到端训练投影器和LLM。
  6. 模型融合(Model Soup):通过融合在评估基准上表现最好的多个模型,提升单一模型的性能。
  7. 多模态模型发展策略:提出了一个三阶段策略,包括训练模态tokenizer和detokenizer、预热模态嵌入层,以及使用高质量的指令调整数据集来训练模态嵌入层和LLM。

POINTS1.5应用场景

  1. 光学字符识别(OCR):自动识别图片中的文字,适用于文档数字化和信息提取。
  2. 复杂图表分析:理解和分析包含丰富视觉元素的图表,适用于金融分析和学术研究。
  3. 图像检索:根据文本查询检索相关图片,适用于搜索引擎和内容推荐系统。
  4. 自动图像标注:为图片内容生成描述性标签,适用于社交媒体和内容管理系统。
  5. 智能客服:通过理解用户上传的图片内容来提供更准确的客户支持,适用于客户服务和技术支持。
  6. 教育辅助:辅助解决几何数学问题和提供视觉辅助材料,适用于在线教育和互动学习平台。

POINTS1.5项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...