MiniCPM-V 2.6:面壁智能推出的MiniCPM-V 系列中最新、功能最强大的模型。
MiniCPM-V 2.6简介
MiniCPM-V 2.6 是由面壁智能开发的端侧多模态大型语言模型,是 MiniCPM-V 系列中最新、功能最强大的模型。该模型基于 SigLip-400M 和 Qwen2-7B 构建,共有 8B 个参数。它在单图、多图和视频理解任务上展现出超越GPT-4V的性能。这一模型的亮点在于其高效的像素编码能力,以及对实时视频理解的端侧支持,使得智能设备能够更直观地理解和学习真实世界。面壁智能的这一创新成果,不仅推动了端侧AI技术的发展,也为多语言和多模态交互提供了强大的支持。
MiniCPM-V 2.6特点
- 卓越的性能:在 OpenCompass 的最新版本中,它平均得分高达 65.2,这是一个涵盖 8 个流行基准的综合评估。
- 多图像理解和上下文学习能力:它能够处理和推理多张图片,并且在流行的多图像基准测试中取得了最先进的性能。
- 视频理解:它可以接受视频输入,进行对话并提供空间时间信息的密集字幕,性能超越了其他模型。
- 强大的 OCR 能力:它能够处理任何纵横比和高达 180 万像素的图像,并且在 OCRBench 上取得了最先进的性能。
- 多语言支持:基于最新的技术,它具有可信赖的行为,并且在多语言能力上支持英语、中文、德语、法语、意大利语、韩语等。
- 高效率:它在处理 180 万像素图像时只产生 640 个令牌,比其他模型少 75%,这直接提高了推理速度、首令牌延迟、内存使用和功耗。
- 易用性:MiniCPM-V 2.6 可以以多种方式轻松使用,包括高效的 CPU 推理、不同大小的量化模型、高吞吐量和内存效率高的推理、新领域和任务的微调、快速的本地 WebUI 演示设置以及在线 Web 演示。
MiniCPM-V 2.6性能
1.OpenCompass、MME、MMVet、OCRBench、MMMU、MathVista、MMB、AI2D、TextVQA、DocVQA、HallusionBench、Object HalBench 上的单图像结果:
2.Mantis Eval、BLINK Val、Mathverse mv、Sciverse mv、MIRB 的多图像结果。
3.Video-MME 和 Video-ChatGPT 上的视频结果。
4.TextVQA、VizWiz、VQAv2、OK-VQA 上的少量结果
MiniCPM-V 2.6开源地址
- GitHub: https://github.com/OpenBMB/MiniCPM-V
- HuggingFace: https://huggingface.co/openbmb/MiniCPM-V-2_6
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...