3.AI大模型数据库

CogView3:智谱AI推出的文本到图像生成模型

CogView3简介 CogView3是智谱AI推出的文本到图像生成模型,它采用了名为“接力扩散”的先进技术。这一模型通过先创建低分辨率图像,然后利用超分辨率生成高清晰...

Molmo:艾伦人工智能研究所推出的新型多模态语言模型

Molmo简介 Molmo是由艾伦人工智能研究所开发的一系列新型多模态语言模型(VLMs)。这些模型通过结合独立的预训练视觉编码器和语言模型,并利用全新收集的高质...

Llama 3.2:Meta最新发布的多模态语言模型 首次引入图像推理功能

Llama 3.2简介 Llama 3.2是Meta最新发布的多模态语言模型系列,具有强大的文本和图像处理能力。该系列包括多种规模的模型,最小为1亿参数,最大为90亿参数,...

LLaMA-Omni:中国科学院推出的低延迟语音交互模型

LLaMA-Omni 简介 LLaMA-Omni是由中国科学院计算技术研究所智能信息处理重点实验室的团队开发的一种新型模型架构,旨在实现与大型语言模型(LLMs)的无缝语音...

QA-MDT:中科大与科大讯飞联合研发的音乐生成模型

QA-MDT简介 QA-MDT(Quality-aware Masked Diffusion Transformer)是由中国科学技术大学与科大讯飞共同开发的一种创新的音乐生成模型。该模型采用掩蔽扩散变...

3DTopia-XL:高效生成高质量3D资产的新框架

3DTopia-XL简介 3DTopia-XL是由南洋理工大学、北京大学、上海人工智能实验室以及香港中文大学的研究团队共同开发的一种高质量3D资产生成框架。它采用了创新的...

GRIN-MoE:微软开源的混合模型 在编码和数学任务中表现出色

GRIN-MoE简介 GRIN-MoE(GRadient-INformed MoE)是由微软公司的研发团队开发的一种创新的深度学习模型。该模型通过引入稀疏梯度估计和精巧的模型并行策略,...

WonderWorld :交互式地生成连贯且多样化的3D虚拟环境

WonderWorld 简介 WonderWorld是由斯坦福大学和麻省理工学院的联合推出的一款创新性3D场景生成框架。该框架允许用户通过单张图片和文本提示,交互式地生成并...

StoryMaker:小红书开源的文生图一致性解决方案

StoryMaker简介 StoryMaker 是由小红书推出的一款开源的文生图保持一致性解决方案。这个工具能够确保在生成图像时,角色的面部特征、服装、发型和身体特征保...

Phidias:能够根据文本描述或单张图像生成相应的3D模型

Phidias简介 Phidias是由香港城市大学、上海人工智能实验室和南洋理工大学的研究人员共同开发的创新生成模型。该模型采用参考增强扩散技术,能够根据文本、图...
1 16 17 18 19 20 30