CogVLM2简介
CogVLM2是由智谱AI推出的创新多模态大模型,它集成了50亿参数的视觉编码器和70亿参数的视觉专家模块,实现了视觉与语言理解的显著性能提升。该模型支持高达8K文本长度和1344*1344分辨率的图像输入,采用”视觉优先”的核心理念,通过深度融合策略优化视觉与语言的交互,确保在增强视觉理解的同时,语言处理能力也得到保持。CogVLM2的开源版本支持中英文双语,实际推理时激活的参数量约为120亿,展现了其在多模态任务中的高效性能。它在OCR、视觉问答等多个关键基准测试上取得了显著的性能提升,并具备图像多轮问答和视觉定位等能力,使其在文档图像理解、内容生成等应用场景中具有广泛的应用潜力。
CogVLM2主要功能
❶文档图像理解:CogVLM2能够理解和处理文档图像,提供对文档内容的深入分析和理解。
❷光学字符识别:模型能够将图像中的文字转换为机器可读的文本数据,提高文字识别的准确性。
❸视觉问答:CogVLM2能够回答与图像内容相关的各种问题,实现图像和语言的交互理解。
❹多模态数据集处理:模型能够同时处理文本和图像输入,适用于需要同时理解视觉和语言信息的场景。
❺长文本处理:支持长达8K的文本输入,使得CogVLM2能够处理更长的文档和复杂的语言任务。
❻高分辨率图像支持:CogVLM2支持高达1344*1344像素的图像分辨率,能够处理更高清晰度的图像。
❼双语支持:CogVLM2提供了支持中英文双语的开源模型版本,增强了模型的多语言能力。
❽多轮对话:模型能够进行多轮图像问答,提供更加连贯和深入的交互体验。
❾视觉定位:CogVLM2具备视觉定位能力,能够识别图像中特定对象的位置和属性。
❿内容生成:模型能够基于给定的视觉和语言信息生成新的内容,如图像描述、故事创作等。
CogVLM2的改进点
智谱AI推出了新一代CogVLM2系列模型,并开源两款基于Meta-Llama-3-8B-Instruct的模型。与上一代 CogVLM 开源模型相比,CogVLM2 系列开源模型有以下改进:
- 许多基准测试都有显著改进,例如
TextVQA
,DocVQA
。 - 支持8K内容长度。
- 支持图像分辨率高达1344*1344。
- 提供支持中英文的开源模型版本。
CogVLM2系列开源模型的详细信息:
型号名称 | cogvlm2-llama3-聊天-19B | cogvlm2-llama3-中文-聊天-19B |
---|---|---|
基础模型 | Meta-Llama-3-8B-指导 | Meta-Llama-3-8B-指导 |
语言 | 英语 | 中文, 英文 |
模型大小 | 19B | 19B |
任务 | 图像理解、对话模型 | 图像理解、对话模型 |
模型链接 | 🤗 Huggingface 🤖 ModelScope 💫 Wise Model | 🤗 Huggingface 🤖 ModelScope 💫 Wise Model |
演示页面 | 📙 官方演示 | 📙 官方演示 🤖 ModelScope |
Int4 模型 | 🤗 Huggingface 🤖 ModelScope | 🤗 Huggingface 🤖 ModelScope |
文本长度 | 8K | 8K |
图像分辨率 | 1344 * 1344 | 1344 * 1344 |
CogVLM2性能表现
CogVLM2开源模型相较于上一代,在很多榜单中都取得了不错的成绩,其优异的表现可以与一些非开源模型相媲美,如下表所示:
模型 | 开源 | LLM 规模 | 文本VQA | DocVQA | 图表问答 | OCR基准 | 移动管理单元 | 麦麦林 | 测试台 |
---|---|---|---|---|---|---|---|---|---|
CogVLM1.1 | ✅ | 7B | 69.7 | – | 68.3 | 590 | 37.3 | 52.0 | 65.8 |
LLaVA-1.5 | ✅ | 13B | 61.3 | – | – | 337 | 37.0 | 35.4 | 67.7 |
迷你双子座 | ✅ | 34B | 74.1 | – | – | – | 48.0 | 59.3 | 80.6 |
LLaVA-NeXT-LLaMA3 | ✅ | 8B | – | 78.2 | 69.5 | – | 41.7 | – | 72.1 |
LLaVA-NeXT-110B | ✅ | 110B | – | 85.7 | 79.7 | – | 49.1 | – | 80.5 |
实习生VL-1.5 | ✅ | 20B | 80.6 | 90.9 | 83.8 | 720 | 46.8 | 55.4 | 82.3 |
QwenVL-Plus | ❌ | – | 78.9 | 91.4 | 78.1 | 726 | 51.4 | 55.7 | 67.0 |
Claude3-Opus | ❌ | – | – | 89.3 | 80.8 | 694 | 59.4 | 51.7 | 63.3 |
双子座专业版 1.5 | ❌ | – | 73.5 | 86.5 | 81.3 | – | 58.5 | – | – |
GPT-4V | ❌ | – | 78.0 | 88.4 | 78.5 | 656 | 56.8 | 67.7 | 75.0 |
CogVLM2-LLaMA3 | ✅ | 8B | 84.2 | 92.3 | 81.0 | 756 | 44.3 | 60.4 | 80.5 |
CogVLM2-LLaMA3-中文 | ✅ | 8B | 85.0 | 88.4 | 74.7 | 780 | 42.8 | 60.5 | 78.9 |
CogVLM2的模型架构
❶视觉编码器:CogVLM2采用了一个拥有50亿参数的强大视觉编码器,用于提取图像特征。
❷视觉专家模块:在大语言模型中创新性地整合了一个70亿参数的视觉专家模块,这个模块通过在预训练的大语言模型中添加视觉适配器来实现,增强了模型处理视觉数据的能力。
❸视觉适配器:视觉专家模块中的适配器在每个注意力层和前馈层中增加了特定的视觉投影层,使得模型能够更有效地处理视觉信息。
❹深度融合策略:CogVLM2通过深度融合视觉语言特征,确保在不牺牲任何自然语言处理(NLP)任务性能的情况下,提升了模型对视觉信息的处理能力。
❺多模态设计:CogVLM2是一个多模态模型,不仅包括基于GLM的双语模型,还有基于Llama2系列的英文模型,这种设计使得模型能够更好地理解和生成视觉场景中的有趣之处。
❻双语支持:CogVLM2的开源版本支持中英文双语,增强了模型的多语言能力。
❼多轮对话和视觉定位:CogVLM2具备图像多轮问答和视觉定位等多种能力,这些功能使得模型在实际应用中更加灵活和实用。
❽高效性能:CogVLM2的模型大小为19亿参数,但实际推理时激活的参数量约为120亿,展现了在多模态任务中的高效性能。
❾视觉优先:CogVLM2的核心思想是“视觉优先”,它将图像特征直接对齐到文本特征的输入空间去,从而更好地处理视觉信息。