3.AI大模型数据库
OmniGen:可处理包括文本到图像生成、图像编辑等多种任务
OmniGen简介 OmniGen是由北京智源人工智能研究院(BAAI)开发的新一代统一图像生成模型。该模型通过简化的架构设计,无需额外模块即可处理包括文本到图像生成...
Moshi:实时对话的语音-文本端对端模型
Moshi简介 Moshi是由法国人工智能研究实验室Kyutai开发的一款先进的语音-文本基础模型,现已开源。它是一个用于实时对话的全双工语音对话框架。该模型通过将...
EzAudio:将文本描述转换为相应逼真的音频内容
EzAudio简介 EzAudio 是由腾讯联合约翰霍普金斯大学开发的一种创新的文本到音频生成框架。该框架通过采用高效的扩散变压器架构和优化的训练策略,在保持模型...
CogVideoX-5B-I2V:智谱 AI 最新开源的文本到视频生成模型
CogVideoX-5B-I2V简介 CogVideoX-5B-I2V 是智谱 AI 开源的文本到视频生成模型,基于 3D 因果变分自编码器和专家自适应 LayerNorm 技术,能够根据文本提示生成...
Qwen2.5 :阿里通义千问团队推出的最新大型语言模型系列
Qwen2.5 简介 Qwen2.5是阿里通义千问团队最新发布的一系列大型语言模型,参数范围从0.5B到72B。与前一版本Qwen2相比,Qwen2.5在知识获取、编程能力和数学推理...
Ovis1.6:阿里国际AI团队推出的多模态大模型
简介 Ovis1.6 是阿里国际AI团队推出的多模态大模型,以其卓越的图像理解和多模态数据处理能力,在多个智能领域展现出色性能。该模型在数学推理问答、物体识别...
Faster Whisper:基于 OpenAI Whisper 模型的高效语音识别工具
Faster Whisper简介 Faster Whisper 是一款基于 OpenAI Whisper 模型的高效语音识别工具,它通过采用 CTranslate2 引擎实现快速推理,显著提升了语音转写的效...
Seed-Music :字节豆包团队推出的一款音乐生成模型
Seed-Music简介 Seed-Music 是由字节跳动公司的豆包团队推出的一款音乐生成模型。它通过结合自回归语言模型和扩散模型,能够根据用户的多样化输入生成高质量...
jina-embeddings-v3:一款多语言文本嵌入模型
Jina-embeddings-v3 简介 Jina-embeddings-v3是由Jina AI GmbH开发的一款先进的文本嵌入模型,它拥有5.7亿参数,专门针对多语言数据处理和长文本上下文检索任...
SwiftBrush V2:一步式文本到图像扩散模型
SwiftBrush V2简介 SwiftBrush v2是一种先进的一步式文本到图像扩散模型,旨在通过创新的训练方法和改进的模型架构,实现与多步Stable Diffusion模型相媲美甚...