3-5.多模态模型

Ovis1.6:阿里国际AI团队推出的多模态大模型

简介 Ovis1.6 是阿里国际AI团队推出的多模态大模型,以其卓越的图像理解和多模态数据处理能力,在多个智能领域展现出色性能。该模型在数学推理问答、物体识别...

Pixtral 12B:Mistral 推出的其首款多模态AI模型

9月11日,Mistral AI 公司发布了名为 Pixtral 12B 的多模态 AI 模型,这是他们首次推出的同时具备语言和视觉处理能力的模型。目前,虽然模型还未对公众开放,...

ImageBind:整合图像、文本、音频、深度、热成像和IMU数据等六种不同的模态

ImageBind简介 ImageBind 是由 Meta AI 团队开发的一种先进的多模态学习框架,它通过构建一个联合嵌入空间来整合图像、文本、音频、深度、热成像和IMU数据等...

Mini-Omni:清华大学开源的多模态大型语言模型,可以边听、边说边思考

Mini-Omni简介 Mini-Omni 是由清华大学推出的一款多模态大型语言模型,它具备实时语音交互的能力,能够直接处理音频输入并即时输出语音,实现流畅的对话体验...

EAGLE:NVIDIA研究院主导开发的多模态大型语言模型

EAGLE简介 EAGLE是由NVIDIA研究院主导开发的多模态大型语言模型(MLLM),它通过混合多种视觉编码器来提升对复杂视觉信息的解读能力。该模型在减少视觉幻觉和...

GLM-4V-Plus:智谱AI推出的图像和视频理解模型

GLM-4V-Plus简介 GLM-4V-Plus是智谱AI推出的一款先进的图像和视频理解模型,它具备出众的图像识别能力和基于时间序列分析的视频理解技术。该模型通过深度学习...

Qwen2-VL:阿里巴巴达摩院最新推出的视觉语言模型

Qwen2-VL简介 Qwen2-VL是阿里巴巴达摩院最新推出的视觉语言模型,具备卓越的图像和视频理解能力。它能够处理不同分辨率和长宽比的图片,理解长达20分钟的视频...

mPLUG-Owl3:阿里推出的一款多模态大型语言模型

mPLUG-Owl3简介 mPLUG-Owl3是由阿里开发的一款先进的多模态大型语言模型,它在处理长图像序列理解方面取得了突破性进展。该模型通过创新的超注意力机制,有效...

Show-o:一个 Transformer 即可统一多模态理解和生成

Show-o简介 Show-o是由新加坡国立大学的Show Lab和字节跳动公司联合开发的一个创新的统一变换器模型。它通过结合自回归和离散扩散建模,有效地整合了多模态理...

LMMs-Eval:一个统一且标准化的多模态评估框架

LMMs-Eval简介 LMMs-Eval是由新加坡南洋理工大学LMMs-Lab团队开发的一个统一且标准化的多模态评估框架,旨在对大型多模态模型进行全面、透明和可复现的评估。...
1 2 3