3.AI大模型数据库

Oryx MLLM:清华、腾讯以及南洋理工联合推出的多模态大型语言模型

Oryx MLLM简介 Oryx MLLM是由清华大学、腾讯公司以及南洋理工大学S-Lab联合开发的多模态大型语言模型。该模型通过创新的预训练OryxViT视觉编码器和动态压缩模...

Emu3:BAAI推出的一款高效多模态模型

Emu3简介 Emu3是由BAAI推出的一款多模态模型,它通过单一的Transformer架构和next-token prediction方法,在视频、图像和文本的生成与感知任务上取得了突破性...

Movie Gen:Meta 推出的AI视频生成工具

Movie Gen 简介 Movie Gen 是 Meta 推出的AI视频生成工具,能够根据文本提示自动创建高质量的视频和音频。该模型基于一个拥有300亿参数的变换器,经过大量图...

CogView3:智谱AI推出的文本到图像生成模型

CogView3简介 CogView3是智谱AI推出的文本到图像生成模型,它采用了名为“接力扩散”的先进技术。这一模型通过先创建低分辨率图像,然后利用超分辨率生成高清晰...

Molmo:艾伦人工智能研究所推出的新型多模态语言模型

Molmo简介 Molmo是由艾伦人工智能研究所开发的一系列新型多模态语言模型(VLMs)。这些模型通过结合独立的预训练视觉编码器和语言模型,并利用全新收集的高质...

Llama 3.2:Meta最新发布的多模态语言模型 首次引入图像推理功能

Llama 3.2简介 Llama 3.2是Meta最新发布的多模态语言模型系列,具有强大的文本和图像处理能力。该系列包括多种规模的模型,最小为1亿参数,最大为90亿参数,...

LLaMA-Omni:中国科学院推出的低延迟语音交互模型

LLaMA-Omni 简介 LLaMA-Omni是由中国科学院计算技术研究所智能信息处理重点实验室的团队开发的一种新型模型架构,旨在实现与大型语言模型(LLMs)的无缝语音...

QA-MDT:中科大与科大讯飞联合研发的音乐生成模型

QA-MDT简介 QA-MDT(Quality-aware Masked Diffusion Transformer)是由中国科学技术大学与科大讯飞共同开发的一种创新的音乐生成模型。该模型采用掩蔽扩散变...

3DTopia-XL:高效生成高质量3D资产的新框架

3DTopia-XL简介 3DTopia-XL是由南洋理工大学、北京大学、上海人工智能实验室以及香港中文大学的研究团队共同开发的一种高质量3D资产生成框架。它采用了创新的...

GRIN-MoE:微软开源的混合模型 在编码和数学任务中表现出色

GRIN-MoE简介 GRIN-MoE(GRadient-INformed MoE)是由微软公司的研发团队开发的一种创新的深度学习模型。该模型通过引入稀疏梯度估计和精巧的模型并行策略,...
1 6 7 8 9 10 20