3-5.多模态模型 | 第 6 页

Molmo：艾伦人工智能研究所推出的新型多模态语言模型

Molmo简介 Molmo是由艾伦人工智能研究所开发的一系列新型多模态语言模型（VLMs）。这些模型通过结合独立的预训练视觉编码器和语言模型，并利用全新收集的高质...

1-2.大模型&国外

10个月前

Llama 3.2简介 Llama 3.2是Meta最新发布的多模态语言模型系列，具有强大的文本和图像处理能力。该系列包括多种规模的模型，最小为1亿参数，最大为90亿参数，...

1-2.大模型&国外

10个月前

简介 Ovis1.6 是阿里国际AI团队推出的多模态大模型，以其卓越的图像理解和多模态数据处理能力，在多个智能领域展现出色性能。该模型在数学推理问答、物体识别...

3-5.多模态模型

10个月前

9月11日，Mistral AI 公司发布了名为 Pixtral 12B 的多模态 AI 模型，这是他们首次推出的同时具备语言和视觉处理能力的模型。目前，虽然模型还未对公众开放，...

1-2.大模型&国外

10个月前

ImageBind简介 ImageBind 是由 Meta AI 团队开发的一种先进的多模态学习框架，它通过构建一个联合嵌入空间来整合图像、文本、音频、深度、热成像和IMU数据等...

3-5.多模态模型

10个月前

Mini-Omni简介 Mini-Omni 是由清华大学推出的一款多模态大型语言模型，它具备实时语音交互的能力，能够直接处理音频输入并即时输出语音，实现流畅的对话体验...

3-5.多模态模型

11个月前

EAGLE简介 EAGLE是由NVIDIA研究院主导开发的多模态大型语言模型（MLLM），它通过混合多种视觉编码器来提升对复杂视觉信息的解读能力。该模型在减少视觉幻觉和...

3-5.多模态模型

11个月前

GLM-4V-Plus简介 GLM-4V-Plus是智谱AI推出的一款先进的图像和视频理解模型，它具备出众的图像识别能力和基于时间序列分析的视频理解技术。该模型通过深度学习...

1-1.大模型&国内

11个月前

Qwen2-VL简介 Qwen2-VL是阿里巴巴达摩院最新推出的视觉语言模型，具备卓越的图像和视频理解能力。它能够处理不同分辨率和长宽比的图片，理解长达20分钟的视频...

1-1.大模型&国内

11个月前

mPLUG-Owl3简介 mPLUG-Owl3是由阿里开发的一款先进的多模态大型语言模型，它在处理长图像序列理解方面取得了突破性进展。该模型通过创新的超注意力机制，有效...

2-1.应用工具文本

11个月前