AI开源项目 | 第 30 页

OmniGen：可处理包括文本到图像生成、图像编辑等多种任务

OmniGen简介 OmniGen是由北京智源人工智能研究院（BAAI）开发的新一代统一图像生成模型。该模型通过简化的架构设计，无需额外模块即可处理包括文本到图像生成...

2-2.应用工具图像

4个月前

Moshi简介 Moshi是由法国人工智能研究实验室Kyutai开发的一款先进的语音-文本基础模型，现已开源。它是一个用于实时对话的全双工语音对话框架。该模型通过将...

3-7.语音模型

4个月前

GVHMR简介 GVHMR是一种创新的人体运动恢复方法，由浙江大学CAD&CG国家重点实验室与香港大学的研究团队共同开发。该技术能够从单目视频中准确估计出基于重...

2-3.应用工具视频

4个月前

GOT-OCR2.0简介 GOT-OCR2.0是由来自阶跃星辰、Megvii Technology、中国科学院大学和清华大学的研究人员共同开发的一款先进的光学字符识别（OCR）模型。作为OC...

AI开源项目

4个月前

EzAudio简介 EzAudio 是由腾讯联合约翰霍普金斯大学开发的一种创新的文本到音频生成框架。该框架通过采用高效的扩散变压器架构和优化的训练策略，在保持模型...

2-4.应用工具音频

4个月前

Void简介 Void 是一款开源的智能编程辅助工具，基于 Visual Studio Code 开发，通过集成先进的人工智能技术，为开发者提供代码自动补全、智能搜索和多光标编...

2-7应用工具编程

4个月前

CogVideoX-5B-I2V简介 CogVideoX-5B-I2V 是智谱 AI 开源的文本到视频生成模型，基于 3D 因果变分自编码器和专家自适应 LayerNorm 技术，能够根据文本提示生成...

1-1.大模型&国内

4个月前

Qwen2.5 简介 Qwen2.5是阿里通义千问团队最新发布的一系列大型语言模型，参数范围从0.5B到72B。与前一版本Qwen2相比，Qwen2.5在知识获取、编程能力和数学推理...

1-1.大模型&国内

4个月前

简介 Ovis1.6 是阿里国际AI团队推出的多模态大模型，以其卓越的图像理解和多模态数据处理能力，在多个智能领域展现出色性能。该模型在数学推理问答、物体识别...

3-5.多模态模型

4个月前

Faster Whisper简介 Faster Whisper 是一款基于 OpenAI Whisper 模型的高效语音识别工具，它通过采用 CTranslate2 引擎实现快速推理，显著提升了语音转写的效...

2-4.应用工具音频

4个月前