AI开源项目

Momo XL:一款基于SDXL模型的动漫风格图像生成模型

Momo XL简介 Momo XL是一款基于SDXL模型的动漫风格图像生成模型,经过精细调优,旨在生成高质量、细致且生动的动漫图像。该模型特别适合创作各种风格的动漫角...

F5-TTS:上海交通大学推出的非自回归文本到语音模型

F5-TTS简介 F5-TTS是由上海交通大学的研究团队开发的一种非自回归文本到语音模型,它采用了基于流匹配的扩散变换器技术。该系统通过简化的设计,无需复杂的时...

Aria:Rhymes AI推出的开源多模态原生混合专家模型

Aria简介 Aria 是由Rhymes AI团队推出的一款开源的多模态原生混合专家(Mixture-of-Experts)模型。它专为整合和理解来自多种模态的真实世界信息而设计,能够...

Swarm:OpenAI 推出的实验性框架 简化多智能体系统的构建和管理

Swarm简介 Swarm 是 OpenAI 发布的一个实验性框架,致力于简化多智能体系统的构建和管理。它通过智能体(agents)和交接(handoffs)两个核心概念,使得不同...

Pyramid Flow:北大和快手联合推出的新型视频生成模型

Pyramid Flow简介 Pyramid Flow是一种创新的视频生成模型,由北京大学和快手科技的开发团队联合研发。该框架通过引入空间和时间金字塔的概念,优化了视频生成...

DreamMesh4D:将单目视频转换成高质量的4D动态网格模型

DreamMesh4D简介 DreamMesh4D是由浙江大学和西湖大学的研究团队开发的一种创新框架,它能够将单目视频转换成高质量的4D动态网格模型。这项技术采用了稀疏控制...

LosslessCut:一款开源的无损视频和音频编辑工具

LosslessCut简介 LosslessCut是一款跨平台的无损视频和音频编辑工具,旨在快速、简便地进行剪辑而不损失原始质量。它利用FFmpeg框架,支持多种格式如MP4、MOV...

PixWizard:能够执行包括图像生成、编辑、恢复和翻译在内的多种视觉任务

PixWizard简介 PixWizard是由CUHK MMLab、北京大学和上海人工智能实验室联合开发的一款多功能图像到图像的视觉助手。它基于自由形式的语言指令,能够执行包括...

UniMuMo:AI舞蹈多模态模型 能够处理和生成音乐、动作和文本之间的任意组合

UniMuMo简介 UniMuMo是一个多模态人工智能模型,它能够处理和生成音乐、动作和文本之间的任意组合内容。该模型通过将这些不同模态的数据转换成统一的标记表示...

DreamWaltz-G:根据文本提示生成具有丰富细节和清晰纹理的3D头像

DreamWaltz-G简介 DreamWaltz-G是由香港大学的研究团队开发的一种创新框架,用于从文本提示生成可动的3D头像。该框架结合了预训练的2D扩散模型和得分蒸馏采样...
1 23 24 25 26 27 47