3.AI大模型数据库 | 第 19 页

OmniGen：可处理包括文本到图像生成、图像编辑等多种任务

OmniGen简介 OmniGen是由北京智源人工智能研究院（BAAI）开发的新一代统一图像生成模型。该模型通过简化的架构设计，无需额外模块即可处理包括文本到图像生成...

2-2.应用工具图像

7个月前

Moshi简介 Moshi是由法国人工智能研究实验室Kyutai开发的一款先进的语音-文本基础模型，现已开源。它是一个用于实时对话的全双工语音对话框架。该模型通过将...

3-7.语音模型

7个月前

EzAudio简介 EzAudio 是由腾讯联合约翰霍普金斯大学开发的一种创新的文本到音频生成框架。该框架通过采用高效的扩散变压器架构和优化的训练策略，在保持模型...

2-4.应用工具音频

7个月前

CogVideoX-5B-I2V简介 CogVideoX-5B-I2V 是智谱 AI 开源的文本到视频生成模型，基于 3D 因果变分自编码器和专家自适应 LayerNorm 技术，能够根据文本提示生成...

1-1.大模型&国内

7个月前

Qwen2.5 简介 Qwen2.5是阿里通义千问团队最新发布的一系列大型语言模型，参数范围从0.5B到72B。与前一版本Qwen2相比，Qwen2.5在知识获取、编程能力和数学推理...

1-1.大模型&国内

7个月前

简介 Ovis1.6 是阿里国际AI团队推出的多模态大模型，以其卓越的图像理解和多模态数据处理能力，在多个智能领域展现出色性能。该模型在数学推理问答、物体识别...

3-5.多模态模型

7个月前

Faster Whisper简介 Faster Whisper 是一款基于 OpenAI Whisper 模型的高效语音识别工具，它通过采用 CTranslate2 引擎实现快速推理，显著提升了语音转写的效...

2-4.应用工具音频

7个月前

Seed-Music简介 Seed-Music 是由字节跳动公司的豆包团队推出的一款音乐生成模型。它通过结合自回归语言模型和扩散模型，能够根据用户的多样化输入生成高质量...

2-4.应用工具音频

7个月前

Jina-embeddings-v3 简介 Jina-embeddings-v3是由Jina AI GmbH开发的一款先进的文本嵌入模型，它拥有5.7亿参数，专门针对多语言数据处理和长文本上下文检索任...

3-9.其他模型

7个月前

SwiftBrush V2简介 SwiftBrush v2是一种先进的一步式文本到图像扩散模型，旨在通过创新的训练方法和改进的模型架构，实现与多步Stable Diffusion模型相媲美甚...

3-2.图片生成模型

7个月前