AI开源项目

SpeechGPT:复旦大学等推出的跨模态对话模型

SpeechGPT简介 SpeechGPT 是由复旦大学计算机科学学院和智能信息处理上海重点实验室的研究团队开发的一项创新技术。这项技术突破了传统大型语言模型的局限,...

GaussianEditor:使用高斯溅射实现快速且可控的 3D 编辑

GaussianEditor 简介 GaussianEditor是由南洋理工大学S-Lab和计算机科学与工程学院,以及清华大学计算机科学与技术系的联合研究团队开发的一种创新3D编辑算法...

Bark: Suno AI 推出的一个开源文本到音频模型

Bark简介 Bark 是由 Suno AI 推出的一个开源文本到音频模型,它基于转换器架构,能够生成逼真的多语言语音以及其他类型的音频,包括音乐、背景噪音和简单的音...

Mistral Large 2:Mistral AI 推出的最新一代大语言模型

Mistral Large 2简介 Mistral Large 2 是由法国人工智能初创公司 Mistral AI 开发的最新一代大型语言模型。它拥有 1230 亿参数,支持 128k 的上下文窗口,能...

Llama 3.1:Meta 推出迄今为止最大、最好的开源 AI 模型

Llama3.1简介 Llama 3.1 是 Meta 发布的一系列大型多语言语言模型,包含 8B、70B 和 405B 参数的版本。这些模型不仅支持预训练和指令调整,还具备更长的上下...

StyleShot:实现对图像风格的精确捕捉和转换

StyleShot简介 StyleShot是由上海人工智能实验室与同济大学联合开发的一项创新技术,它是一种先进的风格迁移方法,能够在无需测试时调整的情况下,实现对图像...

CLAY:用于创建高质量 3D 资产的可控大规模生成模型

CLAY简介 CLAY是由上海科技大学和Deemos Technology Co., Ltd.的联合研究团队开发的一款创新的大规模3D生成模型,旨在将人类的想象力轻松转化为精细的三维数...

SadTalker:单张静态人脸图像和音频输入,生成逼真且风格化的3D动态谈话视频

SadTalker简介 SadTalker是由西安交通大学、腾讯AI实验室和蚂蚁集团的联合研究团队开发的一项先进技术。这项技术能够利用单张静态人脸图像和音频输入,生成逼...

浦语灵笔IXC-2.5:支持长上下文输入和输出的多功能大视觉语言模型

浦语灵笔IXC-2.5简介 浦语灵笔IXC-2.5是由上海人工智能实验室联合香港中文大学、商汤科技集团和清华大学共同开发的一款多功能大型视觉语言模型。它具有长上下...

Wav2Lip:实现对任意身份人物在动态、非受限视频中的口型同步

Wav2Lip简介 Wav2Lip是由印度海得拉巴国际信息技术研究所(IIIT Hyderabad)的研究团队开发的一项先进技术。这项技术通过深度学习模型,能够实现对任意身份人...
1 43 44 45 46