3-5.多模态模型
Aya Vision:Cohere 开发的先进多模态、多语言视觉模型
Aya Vision简介 Aya Vision 是由 Cohere 团队开发的先进多模态、多语言视觉模型,旨在提升全球多语言场景下的视觉和文本理解能力。该模型支持 23 种主要语言...
Granite 3.2:IBM 开源的多模态系列 AI 模型
Granite 3.2 简介 Granite 3.2 是由 IBM 开发的开源多模态 AI 模型系列,旨在为企业提供高效、实用的 AI 解决方案。该系列由 IBM 的技术团队开发,包含多个版...
Liquid:字节联合港大等推出的多模态生成框架
Liquid简介 Liquid 是由华中科技大学、字节跳动公司以及香港大学联合开发的一种创新的多模态生成框架。它通过将图像和文本统一为离散的代码嵌入到共享的特征...
WeGen:中国科学技术大学等推出的多模态生成模型
WeGen简介 WeGen是由中国科学技术大学、上海交通大学、腾讯微信团队、中国科学院以及Galbot等机构联合开发的统一多模态生成模型。它通过整合多模态理解和生成...
HumanOmni:阿里等推出的专注人类中心场景理解的多模态大模型
HumanOmni简介 HumanOmni是由阿里通义实验室联合中山大学ISEE团队和南开大学VCIP团队共同开发的人类中心视频理解多模态大模型。该模型专注于人类中心场景的理...
Phi-4-multimodal:微软推出的首个多模态语言模型
Phi-4-multimodal简介 Phi-4-multimodal是由微软推出的首个多模态语言模型,由微软的GenAI团队负责开发。该模型拥有56亿参数,能够同时处理语音、图像和文本...
GPT-4.5:OpenAI推出的最新语言模型
GPT-4.5简介 GPT-4.5是由OpenAI开发的最新语言模型,代表了其在无监督学习领域的重大进步。该模型通过大规模计算和数据训练,以及架构和优化创新,展现出更广...
Migician:北京交通大学等推出的多模态大型语言模型
Migician简介 Migician是由北京交通大学、华中科技大学和清华大学联合开发团队提出的一种新型多模态大型语言模型(MLLM),专注于自由形式的多图像定位(Mult...
PaliGemma 2 Mix:Google推出的视觉语言模型
PaliGemma 2 Mix简介 PaliGemma 2 Mix是由Google团队开发的一系列视觉语言模型(VLMs),基于SigLIP和Gemma 2架构。该模型家族专注于视觉语言任务,提供三种...
HealthGPT:阿里联合浙大等推出的医学大型视觉-语言模型
HealthGPT简介 HealthGPT是由浙江大学、电子科技大学、阿里巴巴、香港科技大学和新加坡国立大学联合开发的医学大型视觉-语言模型(Med-LVLM)。该模型通过异...