3-5.多模态模型

Grok 3:马斯克旗下xAI公司发布的最新一代AI大模型

Grok 3简介 Grok 3是由马斯克旗下xAI公司发布的最新一代人工智能大模型。它在性能上实现了巨大飞跃,相较于前代提升了数个数量级,尤其在数学推理、科学逻辑...

Ola:腾讯联合清华等高校推出的全模态语言模型

Ola简介 Ola是由清华大学、腾讯 Hunyuan 研究团队和南洋理工大学 S-Lab 联合开发的全模态语言模型。它通过渐进式模态对齐策略,能够同时处理图像、视频和音频...

Janus-Pro:DeepSeek推出的开源统一多模态模型

Janus-Pro简介 Janus-Pro是由DeepSeek推出的一款开源统一多模态模型,具备强大的图像理解和生成能力。它采用创新的视觉编码解耦架构,通过SigLIP编码器和适配...

VARGPT:北京大学推出的多模态大型语言模型

VARGPT简介 VARGPT是由北京大学计算机学院的研究团队开发的一种新型多模态大型语言模型。它通过创新性地扩展LLaVA架构,将视觉理解和生成任务统一在一个自回...

VideoLLaMA 3:阿里达摩院开发的先进多模态基础模型

VideoLLaMA 3简介 VideoLLaMA 3是由阿里巴巴集团达摩院开发的多模态基础模型,专注于图像和视频理解任务。该模型采用“以视觉为中心”的设计理念,通过高质量的...

Kimi k1.5:Kimi 最新推出的多模态大型语言模型

Kimi k1.5简介 Kimi k1.5 是由 Kimi 团队开发的最新多模态大型语言模型(LLM),专注于通过强化学习(RL)提升模型的推理能力和效率。该模型在长文本推理和多...

Mini-InternVL:商汤联合清华等推出的轻量级多模态大型语言模型

Mini-InternVL简介 Mini-InternVL是由上海人工智能实验室、清华大学、南京大学、复旦大学、香港中文大学、商汤科技研究部和上海交通大学等机构联合开发的轻量...

LlamaV-o1:能处理复杂的多步推理任务的多模态视觉推理模型

LlamaV-o1简介 LlamaV-o1是由Mohamed bin Zayed大学人工智能学院等机构的研究团队开发的多模态视觉推理模型。它通过多步课程学习方法进行训练,能够逐步处理...

MinMo:阿里通义推出的多模态语音交互大模型

MinMo简介 MinMo是由阿里巴巴集团通义实验室的FunAudioLLM团队开发的多模态大型语音交互大模型,旨在实现无缝语音交互。该模型拥有约80亿参数,通过四个阶段...

MiniMax-01:MiniMax推出的全新系列模型

MiniMax-01简介 MiniMax-01是MiniMax推出的全新系列模型,旨在突破大型语言模型(LLMs)和视觉语言模型(VLMs)在处理长文本上下文时的限制。该系列包括MiniM...
1 2 3 4 5 7