3.AI大模型数据库 | 第 14 页

Sapiens：Meta推出的AI视觉模型可识别图像中人体的各个关键点

Sapiens简介 Sapiens是由Meta公司的Reality Labs团队开发的一款先进的人工智能视觉模型。它专为理解人体而设计，能够处理包括2D姿态估计、身体部位分割、深度...

2-2.应用工具图像

5个月前

心辰Lingo简介 '心辰Lingo'是西湖心辰推出的端到端语音大模型，它具备原生的语音理解能力，能够识别语音中的文字信息以及情感、语气、音调等重要特征，提供更...

3-7.语音模型

5个月前

mPLUG-Owl3简介 mPLUG-Owl3是由阿里开发的一款先进的多模态大型语言模型，它在处理长图像序列理解方面取得了突破性进展。该模型通过创新的超注意力机制，有效...

2-1.应用工具文本

5个月前

Show-o简介 Show-o是由新加坡国立大学的Show Lab和字节跳动公司联合开发的一个创新的统一变换器模型。它通过结合自回归和离散扩散建模，有效地整合了多模态理...

3-5.多模态模型

5个月前

GPT Pilot简介 MooER是由摩尔线程开发的基于大型语言模型（LLM）的自动语音识别（ASR）和自动语音翻译（AST）模型。该模型利用5000小时的伪标记数据集进行训...

2-4.应用工具音频

5个月前

LMMs-Eval简介 LMMs-Eval是由新加坡南洋理工大学LMMs-Lab团队开发的一个统一且标准化的多模态评估框架，旨在对大型多模态模型进行全面、透明和可复现的评估。...

3-5.多模态模型

5个月前

MUMU简介 MUMU是由Sutter Hill Ventures的研究团队开发的一款创新的多模态图像生成模型，它能够通过结合文本和图像输入生成新的图像。该模型通过自举方法构建...

2-2.应用工具图像

5个月前

源2.0-M32简介源2.0-M32是由浪潮信息推出推出的先进双语混合专家（MoE）语言模型，采用具有32个专家的架构，其中每次激活2个专家。该模型引入了创新的'Atten...

1-1.大模型&国内

5个月前

TrackGo简介 TrackGo是由北京航空航天大学和AISphere Tech的联合研究团队开发的一种创新视频生成方法。这项技术允许用户通过自由形式的遮罩和箭头来指定目标...

2-3.应用工具视频

5个月前

Imagine Yourself简介 Imagine Yourself 是Meta公司推出的个性化AI图像生成模型。它通过先进的合成配对数据和并行注意力架构，无需对用户进行单独调整即可创...

3-2.图片生成模型

5个月前