3.AI大模型数据库

MDM:苹果开源的新型图像&视频生成模型

MDM简介 Matryoshka Diffusion Models(MDM)是由苹果公司开发的创新框架,旨在解决生成高分辨率图像和视频时面临的计算和优化挑战。MDM通过一个端到端的多分...

LSLM:具备边听边说能力的语音模型,实现实时的双向交流

LSLM简介 LSLM(Listening-while-Speaking Language Model)是由上海交通大学人工智能教育部重点实验室X-LANCE实验室与字节跳动公司联合开发的创新性端到端模...

Qwen2-Math:阿里通义团队推出的的数学专用AI模型

Qwen2-Math简介 Qwen2-Math是阿里巴巴通义团队开发的一款先进的数学解决方案模型,它通过专门化的预训练和精细调整,显著提升了解决包括代数、几何、概率在内...

SAM-Graph:基于多视图信息的3D实例分割框架

SAM-Graph简介 SAM-Graph是一种创新的3D实例分割方法,由浙江大学、北京师范大学、蚂蚁集团和深圳大学的联合研究团队开发。该方法通过结合3D几何信息和多视图...

EmoTalk3D:情感可控3D会说话头部模型

EmoTalk3D项目简介 EmoTalk3D 是由南京大学新型软件技术国家重点实验室联合复旦大学和华为诺亚方舟实验室共同开发的一项先进技术。这项技术通过一个创新的‘Sp...

MiniCPM-V 2.6:面壁智能推出的MiniCPM-V 系列中最新、功能最强大的模型。

MiniCPM-V 2.6简介 MiniCPM-V 2.6 是由面壁智能开发的端侧多模态大型语言模型,是 MiniCPM-V 系列中最新、功能最强大的模型。该模型基于 SigLip-400M 和 Qwen...

Lumina-mGPT:利用多模态生成预训练生成高逼真图像

Lumina-mGPT简介 Lumina-mGPT是由上海人工智能实验室和香港中文大学的联合研究团队开发的一款先进的多模态自回归模型。它通过多模态生成预训练(mGPT),利用...

SceneTeller:通过文本描述生成高质量3D场景

SceneTeller简介 SceneTeller是由阿姆斯特丹大学的UvA-Bosch Delta Lab与博世公司的Bosch Center for AI合作开发的一项创新技术。这项技术能够根据自然语言描...

Whisper-Medusa:aiOla开源的AI语音识别模型

whisper-medusa简介 Whisper-Medusa是由aiOla推出的开源AI语音识别模型,它结合了OpenAI的Whisper模型和aiOla的技术,实现了超过50%的加速而不影响识别的准确...

Tora:阿里推出的基于轨迹导向的扩散变换器视频生成框架

Tora简介 Tora是由阿里巴巴集团开发的一款创新的视频生成框架,它融合了轨迹导向的扩散变换器技术,能够根据文本、图像和轨迹条件生成高质量视频。这一突破性...
1 16 17 18 19 20