3.AI大模型数据库
CogVideoX:智谱AI开源的视频生成模型(新增CogVideoX-5B模型)
CogVideo简介 CogVideoX是由智谱AI推出的一款先进的文本到视频扩散模型。是 清影 同源的开源版本视频生成模型。它通过结合3D变分自编码器和专家变换器架构,...
Omages:将复杂的3D格式转换为更易于管理的2D格式
Omages 简介 Omages是一种创新的3D模型生成技术,由西蒙弗雷泽大学和香港城市大学的研究团队开发。该技术通过将3D形状的几何、外观和结构封装在64x64像素的图...
GLM-4-Flash:智谱AI首个免费API,零成本使用大模型
GLM-4-Flash简介 GLM-4-Flash是由智谱AI开发的一款高性能大语言模型,以其快速的生成速度和支持多语言的能力而闻名。这款模型专为简单、低成本且需要快速响应...
山海大模型:云知声正式推出的多模态大模型
山海大模型简介 山海大模型是云知声推出的多模态人工智能大模型,这是一款集语音交互、情感感知、音色切换和视觉场景理解于一体的先进人工智能系统。能够实时...
Sapiens:Meta推出的AI视觉模型 可识别图像中人体的各个关键点
Sapiens简介 Sapiens是由Meta公司的Reality Labs团队开发的一款先进的人工智能视觉模型。它专为理解人体而设计,能够处理包括2D姿态估计、身体部位分割、深度...
心辰Lingo:西湖心辰推出的国内首个端到端语音大模型
心辰Lingo简介 '心辰Lingo'是西湖心辰推出的端到端语音大模型,它具备原生的语音理解能力,能够识别语音中的文字信息以及情感、语气、音调等重要特征,提供更...
mPLUG-Owl3:阿里推出的一款多模态大型语言模型
mPLUG-Owl3简介 mPLUG-Owl3是由阿里开发的一款先进的多模态大型语言模型,它在处理长图像序列理解方面取得了突破性进展。该模型通过创新的超注意力机制,有效...
Show-o:一个 Transformer 即可统一多模态理解和生成
Show-o简介 Show-o是由新加坡国立大学的Show Lab和字节跳动公司联合开发的一个创新的统一变换器模型。它通过结合自回归和离散扩散建模,有效地整合了多模态理...
MooER:摩尔线程推出的自动语音识别&语音翻译模型
GPT Pilot简介 MooER是由摩尔线程开发的基于大型语言模型(LLM)的自动语音识别(ASR)和自动语音翻译(AST)模型。该模型利用5000小时的伪标记数据集进行训...
LMMs-Eval:一个统一且标准化的多模态评估框架
LMMs-Eval简介 LMMs-Eval是由新加坡南洋理工大学LMMs-Lab团队开发的一个统一且标准化的多模态评估框架,旨在对大型多模态模型进行全面、透明和可复现的评估。...