3-5.多模态模型

The Language of Motion:李飞飞团队推出的多模态语言模型

The Language of Motion简介 'The Language of Motion'是由斯坦福大学李飞飞团队开发的一项创新研究,旨在通过一个多模态语言模型框架来统一和理解人类的口头...

Apollo:Meta和斯坦福大学联合推出的大型多模态模型

Apollo简介 Apollo是Meta GenAI与斯坦福大学合作开发的一系列先进的大型多模态模型(LMMs),旨在深入探索和提升视频理解能力。该模型家族通过系统性研究,优...

Megrez-3B-Omni:无问芯穹开源的全球首个端侧全模态理解模型

Megrez-3B-Omni 简介 Megrez-3B-Omni 是无问芯穹开源的全球首个端侧全模态理解模型,它能够处理图像、音频和文本等多种数据类型,具有30亿参数,推理速度快,...

Lyra:香港中文大学等推出的多模态语言模型

Lyra简介 Lyra是由香港中文大学、SmartMore和香港科技大学的联合研究团队开发的一款高效且以语音为中心的多模态大型语言模型框架。该框架通过先进的语音理解...

POINTS1.5:腾讯微信推出的多模态大模型

POINTS1.5简介 POINTS1.5是由腾讯微信推出的多模态大模型,旨在提升对现实世界应用的处理能力。该模型在POINTS1.0的基础上进行了重大创新,包括采用NaViT风格...

Maya:能够处理和理解八种不同语言的图像和文本数据

Maya简介 Maya是一个开源的多语言多模态视觉语言模型,旨在提升机器对低资源语言和多样文化背景的理解能力。它基于LLaVA框架,提供了一个包含八种语言的558,0...

NVLM 1.0:英伟达推出的一款多模态大型语言模型

NVLM 1.0简介 NVLM 1.0是NVIDIA开发的一款前沿多模态大型语言模型,它在视觉-语言任务上取得了突破性成果,与业界领先的专有模型和开放访问模型相媲美。该模...

LEOPAR:腾讯AI西雅图实验室推出的一款多模态大型语言模型

LEOPARD简介 LEOPARD是由腾讯AI西雅图实验室推出的一款多模态大型语言模型(MLLM),专门针对包含丰富文本的多图像任务而设计。该模型通过创建一个包含约一百...

PANGEA:卡内基梅隆大学推出的多语言多模态大型语言模型

PANGEA简介 PANGEA是由卡内基梅隆大学的研究团队开发的一款多语言多模态大型语言模型(LLM),旨在缩小视觉理解任务中的语言和文化差距。该模型经过39种语言...

VILA-U:能够理解和处理涉及图像和语言的任务

VILA-U简介 VILA-U是一个创新的统一视觉语言模型,它整合了视频、图像和语言的理解和生成能力。与传统视觉语言模型不同,VILA-U采用单一的自回归下一个token...
1 2 3