3-5.多模态模型

Qwen2.5-Omni:阿里开源的端到端全模态大模型

Qwen2.5-Omni简介 Qwen2.5-Omni是由阿里开源的端到端全模态大模型,能够处理文本、图像、音频和视频等多种模态输入,并以流式方式同时生成文本和自然语音响应...

Cosmos-Reason1:NVIDIA推出的系列多模态大型语言模型

Cosmos-Reason1简介 Cosmos-Reason1是由NVIDIA开发的一系列多模态大型语言模型,专注于理解和推理物理世界。该模型通过长链推理过程生成自然语言中的体现决策...

Qwen2.5-VL-32B:阿里开源的最新多模态模型

Qwen2.5-VL-32B简介 Qwen2.5-VL-32B 是由阿里巴巴团队开发的最新多模态模型,参数规模为为32B。该模型在视觉语言理解和生成方面表现出色,能够处理图像描述、...

InternVL:OpenGVLab等推出的多模态大模型

InternVL简介 InternVL是由上海人工智能实验室(OpenGVLab)联合南京大学、香港大学、香港中文大学、清华大学、中国科学技术大学和商汤科技等机构共同开发的...

Mistral Small 3.1:Mistral AI 开源的多模态 AI 模型

Mistral Small 3.1简介 Mistral Small 3.1 是由 Mistral AI 开源的多模态 AI 模型。它在 Mistral Small 3 的基础上进行了优化,具备卓越的文本处理能力、多模...

Gemma 3:谷歌最新推出的开源多模态 AI 模型

Gemma 3 简介 Gemma 3 是由谷歌 AI 团队开发的最新开源多模态 AI 模型。它支持文本和图像输入,并能生成文本输出,具备多语言和长上下文处理能力。开发团队通...

Gemini 2.0 Flash:Google推出的多模态AI模型

Gemini 2.0 Flash 简介 Gemini 2.0 Flash 是由Google推出的多模态AI模型。它结合了多模态输入、增强推理和自然语言理解能力,能够根据文本描述生成连贯的图像...

Nexus-O:HiThink联合多家机构推出的多模态交互模型

Nexus-O简介 Nexus-O是由HiThink Research联合多家知名机构共同开发的多模态交互模型,旨在通过整合音频、图像/视频和文本数据,实现高效的人机交互和多模态...

Aya Vision:Cohere 开发的先进多模态、多语言视觉模型

Aya Vision简介 Aya Vision 是由 Cohere 团队开发的先进多模态、多语言视觉模型,旨在提升全球多语言场景下的视觉和文本理解能力。该模型支持 23 种主要语言...

Granite 3.2:IBM 开源的多模态系列 AI 模型

Granite 3.2 简介 Granite 3.2 是由 IBM 开发的开源多模态 AI 模型系列,旨在为企业提供高效、实用的 AI 解决方案。该系列由 IBM 的技术团队开发,包含多个版...
1 2 3 6