3-5.多模态模型 | 柒柒AI导航

UniDisc：卡内基梅隆大学推出的多模态生成模型

UniDisc简介 UniDisc（Unified Multimodal Discrete Diffusion）是由卡内基梅隆大学团队提出的一种新型多模态生成模型。它基于离散扩散模型框架，能够同时理...

3-5.多模态模型

3个月前

Llama 4 简介 Llama 4是由Meta开发的开源多模态AI模型系列。该系列包括Scout、Maverick和Behemoth三个版本。其中，Scout拥有170亿活跃参数和16个专家，总参数...

1-2.大模型&国外

3个月前

Qwen2.5-Omni简介 Qwen2.5-Omni是由阿里开源的端到端全模态大模型，能够处理文本、图像、音频和视频等多种模态输入，并以流式方式同时生成文本和自然语音响应...

1-1.大模型&国内

4个月前

Cosmos-Reason1简介 Cosmos-Reason1是由NVIDIA开发的一系列多模态大型语言模型，专注于理解和推理物理世界。该模型通过长链推理过程生成自然语言中的体现决策...

3-5.多模态模型

4个月前

Qwen2.5-VL-32B简介 Qwen2.5-VL-32B 是由阿里巴巴团队开发的最新多模态模型，参数规模为为32B。该模型在视觉语言理解和生成方面表现出色，能够处理图像描述、...

1-1.大模型&国内

4个月前

InternVL简介 InternVL是由上海人工智能实验室（OpenGVLab）联合南京大学、香港大学、香港中文大学、清华大学、中国科学技术大学和商汤科技等机构共同开发的...

3-5.多模态模型

4个月前

Mistral Small 3.1简介 Mistral Small 3.1 是由 Mistral AI 开源的多模态 AI 模型。它在 Mistral Small 3 的基础上进行了优化，具备卓越的文本处理能力、多模...

1-2.大模型&国外

4个月前

Gemma 3 简介 Gemma 3 是由谷歌 AI 团队开发的最新开源多模态 AI 模型。它支持文本和图像输入，并能生成文本输出，具备多语言和长上下文处理能力。开发团队通...

1-2.大模型&国外

4个月前

Gemini 2.0 Flash 简介 Gemini 2.0 Flash 是由Google推出的多模态AI模型。它结合了多模态输入、增强推理和自然语言理解能力，能够根据文本描述生成连贯的图像...

1-2.大模型&国外

4个月前

Nexus-O简介 Nexus-O是由HiThink Research联合多家知名机构共同开发的多模态交互模型，旨在通过整合音频、图像/视频和文本数据，实现高效的人机交互和多模态...

3-5.多模态模型

4个月前