3-5.多模态模型

Molmo:艾伦人工智能研究所推出的新型多模态语言模型

Molmo简介 Molmo是由艾伦人工智能研究所开发的一系列新型多模态语言模型(VLMs)。这些模型通过结合独立的预训练视觉编码器和语言模型,并利用全新收集的高质...

Llama 3.2:Meta最新发布的多模态语言模型 首次引入图像推理功能

Llama 3.2简介 Llama 3.2是Meta最新发布的多模态语言模型系列,具有强大的文本和图像处理能力。该系列包括多种规模的模型,最小为1亿参数,最大为90亿参数,...

Ovis1.6:阿里国际AI团队推出的多模态大模型

简介 Ovis1.6 是阿里国际AI团队推出的多模态大模型,以其卓越的图像理解和多模态数据处理能力,在多个智能领域展现出色性能。该模型在数学推理问答、物体识别...

Pixtral 12B:Mistral 推出的其首款多模态AI模型

9月11日,Mistral AI 公司发布了名为 Pixtral 12B 的多模态 AI 模型,这是他们首次推出的同时具备语言和视觉处理能力的模型。目前,虽然模型还未对公众开放,...

ImageBind:整合图像、文本、音频、深度、热成像和IMU数据等六种不同的模态

ImageBind简介 ImageBind 是由 Meta AI 团队开发的一种先进的多模态学习框架,它通过构建一个联合嵌入空间来整合图像、文本、音频、深度、热成像和IMU数据等...

Mini-Omni:清华大学开源的多模态大型语言模型,可以边听、边说边思考

Mini-Omni简介 Mini-Omni 是由清华大学推出的一款多模态大型语言模型,它具备实时语音交互的能力,能够直接处理音频输入并即时输出语音,实现流畅的对话体验...

EAGLE:NVIDIA研究院主导开发的多模态大型语言模型

EAGLE简介 EAGLE是由NVIDIA研究院主导开发的多模态大型语言模型(MLLM),它通过混合多种视觉编码器来提升对复杂视觉信息的解读能力。该模型在减少视觉幻觉和...

GLM-4V-Plus:智谱AI推出的图像和视频理解模型

GLM-4V-Plus简介 GLM-4V-Plus是智谱AI推出的一款先进的图像和视频理解模型,它具备出众的图像识别能力和基于时间序列分析的视频理解技术。该模型通过深度学习...

Qwen2-VL:阿里巴巴达摩院最新推出的视觉语言模型

Qwen2-VL简介 Qwen2-VL是阿里巴巴达摩院最新推出的视觉语言模型,具备卓越的图像和视频理解能力。它能够处理不同分辨率和长宽比的图片,理解长达20分钟的视频...

mPLUG-Owl3:阿里推出的一款多模态大型语言模型

mPLUG-Owl3简介 mPLUG-Owl3是由阿里开发的一款先进的多模态大型语言模型,它在处理长图像序列理解方面取得了突破性进展。该模型通过创新的超注意力机制,有效...
1 4 5 6 7