3-5.多模态模型

LLaVA-Mini:中国科学院等推出的多模态模型

LLaVA-Mini简介 LLaVA-Mini是由中国科学院计算技术研究所智能信息处理重点实验室、人工智能安全重点实验室以及中国科学院大学的研究团队共同开发的高效多模态...

VITA-1.5:实现视频、图像、文本和音频模态的无缝融合与交互

VITA-1.5简介 VITA-1.5 是一款开源的多模态大型语言模型,旨在实现视频、图像、文本和音频模态的无缝融合与交互。基于 Mixtral 8×7B 语言模型,VITA-1.5 通过...

The Language of Motion:李飞飞团队推出的多模态语言模型

The Language of Motion简介 'The Language of Motion'是由斯坦福大学李飞飞团队开发的一项创新研究,旨在通过一个多模态语言模型框架来统一和理解人类的口头...

Apollo:Meta和斯坦福大学联合推出的大型多模态模型

Apollo简介 Apollo是Meta GenAI与斯坦福大学合作开发的一系列先进的大型多模态模型(LMMs),旨在深入探索和提升视频理解能力。该模型家族通过系统性研究,优...

Megrez-3B-Omni:无问芯穹开源的全球首个端侧全模态理解模型

Megrez-3B-Omni 简介 Megrez-3B-Omni 是无问芯穹开源的全球首个端侧全模态理解模型,它能够处理图像、音频和文本等多种数据类型,具有30亿参数,推理速度快,...

Lyra:香港中文大学等推出的多模态语言模型

Lyra简介 Lyra是由香港中文大学、SmartMore和香港科技大学的联合研究团队开发的一款高效且以语音为中心的多模态大型语言模型框架。该框架通过先进的语音理解...

POINTS1.5:腾讯微信推出的多模态大模型

POINTS1.5简介 POINTS1.5是由腾讯微信推出的多模态大模型,旨在提升对现实世界应用的处理能力。该模型在POINTS1.0的基础上进行了重大创新,包括采用NaViT风格...

Maya:能够处理和理解八种不同语言的图像和文本数据

Maya简介 Maya是一个开源的多语言多模态视觉语言模型,旨在提升机器对低资源语言和多样文化背景的理解能力。它基于LLaVA框架,提供了一个包含八种语言的558,0...

NVLM 1.0:英伟达推出的一款多模态大型语言模型

NVLM 1.0简介 NVLM 1.0是NVIDIA开发的一款前沿多模态大型语言模型,它在视觉-语言任务上取得了突破性成果,与业界领先的专有模型和开放访问模型相媲美。该模...

LEOPAR:腾讯AI西雅图实验室推出的一款多模态大型语言模型

LEOPARD简介 LEOPARD是由腾讯AI西雅图实验室推出的一款多模态大型语言模型(MLLM),专门针对包含丰富文本的多图像任务而设计。该模型通过创建一个包含约一百...
1 2 3 4 5 6 7