3-5.多模态模型

Embed3:Cohere推出的一款多模态AI搜索模型

Embed3简介 Embed3是由Cohere推出的一款多模态AI搜索模型,旨在提升图像和文本的检索能力。它通过跨模态对齐技术,实现了更高效的图像与文本匹配,使用户能够...

TextHarmony:华东师范大学和字节联合推出的多模态生成模型

TextHarmony简介 TextHarmony是由华东师范大学和字节跳动的联合研究团队开发的一款创新的多模态生成模型,它在视觉文本理解和生成领域展现了卓越的能力。该模...

Janus:DeepSeek-AI推出的一款多模态理解和生成框架

Janus简介 Janus是由DeepSeek-AI推出的一款多模态理解和生成框架。该框架通过创新性地将视觉编码分离成独立的路径,有效地解决了多模态理解和视觉生成任务之...

SPIRIT-LM:能理解和生成文本和语音 实现两种模态之间的无缝转换

SPIRIT-LM简介 SPIRIT-LM是由Meta AI团队开发的一种创新的多模态语言模型,它能够无缝地混合和理解文本与语音数据。该模型通过在大量文本和语音单位上进行连...

MM1.5:苹果公司推出的多模态大型语言模型

MM1.5简介 MM1.5是苹果公司推出的多模态大型语言模型,旨在提升模型在文本丰富的图像理解、视觉指代和定位以及多图像推理方面的能力。该模型包括不同规模的版...

Aria:Rhymes AI推出的开源多模态原生混合专家模型

Aria简介 Aria 是由Rhymes AI团队推出的一款开源的多模态原生混合专家(Mixture-of-Experts)模型。它专为整合和理解来自多种模态的真实世界信息而设计,能够...

Oryx MLLM:清华、腾讯以及南洋理工联合推出的多模态大型语言模型

Oryx MLLM简介 Oryx MLLM是由清华大学、腾讯公司以及南洋理工大学S-Lab联合开发的多模态大型语言模型。该模型通过创新的预训练OryxViT视觉编码器和动态压缩模...

Emu3:BAAI推出的一款高效多模态模型

Emu3简介 Emu3是由BAAI推出的一款多模态模型,它通过单一的Transformer架构和next-token prediction方法,在视频、图像和文本的生成与感知任务上取得了突破性...

Molmo:艾伦人工智能研究所推出的新型多模态语言模型

Molmo简介 Molmo是由艾伦人工智能研究所开发的一系列新型多模态语言模型(VLMs)。这些模型通过结合独立的预训练视觉编码器和语言模型,并利用全新收集的高质...

Llama 3.2:Meta最新发布的多模态语言模型 首次引入图像推理功能

Llama 3.2简介 Llama 3.2是Meta最新发布的多模态语言模型系列,具有强大的文本和图像处理能力。该系列包括多种规模的模型,最小为1亿参数,最大为90亿参数,...
1 2 3