3.AI大模型数据库
Takin AudioLLM:喜马拉雅推出的零样本语音生成模型
Takin AudioLLM简介 Takin AudioLLM是由喜马拉雅的Everest团队开发的一款先进的零样本语音生成模型,包括Takin TTS、Takin VC和Takin Morphing三个模型,专为...
ACE:阿里通义实验室推出的全能型图像生成和编辑模型
ACE简介 ACE是由阿里通义实验室开发的一款全能型图像生成和编辑模型,它基于扩散变换器技术,能够理解和执行通过自然语言指令提出的复杂图像编辑任务。ACE通...
OneDiffusion:能够实现图像合成和理解的双向任务
OneDiffusion简介 OneDiffusion是由AI2团队开发的一款多功能大规模扩散模型,它能够实现图像合成和理解的双向任务,覆盖文本到图像的生成、条件图像生成、图...
NVLM 1.0:英伟达推出的一款多模态大型语言模型
NVLM 1.0简介 NVLM 1.0是NVIDIA开发的一款前沿多模态大型语言模型,它在视觉-语言任务上取得了突破性成果,与业界领先的专有模型和开放访问模型相媲美。该模...
OminiControl:新加坡国立大学推出的高效图像条件控制框架
OminiControl简介 OminiControl是由新加坡国立大学的研究团队开发的一种新型图像生成框架,它通过极少量的额外参数(仅0.1%)将图像条件集成到预训练的Diffus...
Kandinsky 3:一款基于潜在扩散模型的文本到图像生成框架
Kandinsky 3简介 Kandinsky 3是一款基于潜在扩散模型的文本到图像生成框架,以其卓越的质量和逼真度而闻名。它能够处理多种图像生成任务,如文本引导的修复/...
EvolveDirector:新加坡国立大学&阿里联合推出的图像生成框架
EvolveDirector简介 EvolveDirector是由新加坡国立大学Show Lab和阿里巴巴集团共同开发的一种先进文本到图像生成框架。该框架通过与现有先进模型的公共API交...
LEOPAR:腾讯AI西雅图实验室推出的一款多模态大型语言模型
LEOPARD简介 LEOPARD是由腾讯AI西雅图实验室推出的一款多模态大型语言模型(MLLM),专门针对包含丰富文本的多图像任务而设计。该模型通过创建一个包含约一百...
PANGEA:卡内基梅隆大学推出的多语言多模态大型语言模型
PANGEA简介 PANGEA是由卡内基梅隆大学的研究团队开发的一款多语言多模态大型语言模型(LLM),旨在缩小视觉理解任务中的语言和文化差距。该模型经过39种语言...
Fugatto:英伟达推出的一款多功能音频合成和转换模型
Fugatto简介 Fugatto是由NVIDIA团队开发的一款多功能音频合成和转换模型,它能够理解和执行自由形式的文本指令,并结合可选的音频输入进行创作。该模型通过特...