AI开源项目

OmniGen:可处理包括文本到图像生成、图像编辑等多种任务

OmniGen简介 OmniGen是由北京智源人工智能研究院(BAAI)开发的新一代统一图像生成模型。该模型通过简化的架构设计,无需额外模块即可处理包括文本到图像生成...

Moshi:实时对话的语音-文本端对端模型

Moshi简介 Moshi是由法国人工智能研究实验室Kyutai开发的一款先进的语音-文本基础模型,现已开源。它是一个用于实时对话的全双工语音对话框架。该模型通过将...

GVHMR:能够从单一视角的视频资料中恢复出人体运动

GVHMR简介 GVHMR是一种创新的人体运动恢复方法,由浙江大学CAD&CG国家重点实验室与香港大学的研究团队共同开发。该技术能够从单目视频中准确估计出基于重...

GOT-OCR2.0:阶跃星辰等推出的端到端的OCR模型

GOT-OCR2.0简介 GOT-OCR2.0是由来自阶跃星辰、Megvii Technology、中国科学院大学和清华大学的研究人员共同开发的一款先进的光学字符识别(OCR)模型。作为OC...

EzAudio:将文本描述转换为相应逼真的音频内容

EzAudio简介 EzAudio 是由腾讯联合约翰霍普金斯大学开发的一种创新的文本到音频生成框架。该框架通过采用高效的扩散变压器架构和优化的训练策略,在保持模型...

Void:一款开源的智能编程辅助工具

Void简介 Void 是一款开源的智能编程辅助工具,基于 Visual Studio Code 开发,通过集成先进的人工智能技术,为开发者提供代码自动补全、智能搜索和多光标编...

CogVideoX-5B-I2V:智谱 AI 最新开源的文本到视频生成模型

CogVideoX-5B-I2V简介 CogVideoX-5B-I2V 是智谱 AI 开源的文本到视频生成模型,基于 3D 因果变分自编码器和专家自适应 LayerNorm 技术,能够根据文本提示生成...

Qwen2.5 :阿里通义千问团队推出的最新大型语言模型系列

Qwen2.5 简介 Qwen2.5是阿里通义千问团队最新发布的一系列大型语言模型,参数范围从0.5B到72B。与前一版本Qwen2相比,Qwen2.5在知识获取、编程能力和数学推理...

Ovis1.6:阿里国际AI团队推出的多模态大模型

简介 Ovis1.6 是阿里国际AI团队推出的多模态大模型,以其卓越的图像理解和多模态数据处理能力,在多个智能领域展现出色性能。该模型在数学推理问答、物体识别...

Faster Whisper:基于 OpenAI Whisper 模型的高效语音识别工具

Faster Whisper简介 Faster Whisper 是一款基于 OpenAI Whisper 模型的高效语音识别工具,它通过采用 CTranslate2 引擎实现快速推理,显著提升了语音转写的效...
1 28 29 30 31 32 47