AI开源项目
Generative Omnimatte:谷歌推出的的视频分解技术
Generative Omnimatte简介 Generative Omnimatte是由Google DeepMind团队开发的一种创新视频分解技术,它能够将视频解析成包含独立对象及其相关效果(如阴影...
ConsisID:北京大学等推出的身份保持文本到视频生成模型
ConsisID简介 ConsisID是由北京大学、鹏城实验室、罗切斯特大学和新加坡国立大学的研究团队共同开发的一种创新文本到视频生成模型。该模型通过频域分解技术,...
Edify 3D:根据输入的文本提示生成相应的3D数字资产
Edify 3D简介 Edify 3D 是 NVIDIA 推出的 3D 资产生成解决方案,能够根据文本提示或参考图像快速生成高质量、细节丰富的 3D 模型。这项技术结合了扩散模型和 ...
DynaSaur:Adobe研究团队推出的新型LLM代理框架
DynaSaur简介 DynaSaur是由Adobe Research团队开发的一种新型大型语言模型(LLM)代理框架,它突破了传统LLM代理系统的限制,能够动态创建和组合动作以在线方...
AutoTrain:Hugging Face推出的开源无代码工具/库
AutoTrain简介 AutoTrain是由Hugging Face开发的开源无代码工具/库,旨在简化不同任务的模型训练过程,包括大型语言模型微调、文本和图像分类等。它支持Huggi...
ACE:阿里通义实验室推出的全能型图像生成和编辑模型
ACE简介 ACE是由阿里通义实验室开发的一款全能型图像生成和编辑模型,它基于扩散变换器技术,能够理解和执行通过自然语言指令提出的复杂图像编辑任务。ACE通...
ViewExtrapolator:能够在训练视图范围之外生成新的视角图像
ViewExtrapolator简介 ViewExtrapolator是由南洋理工大学和UCAS-Terminus AI实验室联合开发的一种创新方法,它通过利用稳定视频扩散(Stable Video Diffusion...
OpenScholar:辅助科学家整合科学文献的检索大型语言模型
OpenScholar简介 OpenScholar是由华盛顿大学、艾伦人工智能研究所、伊利诺伊大学厄巴纳-香槟分校、卡内基梅隆大学、北卡罗来纳大学教堂山分校和斯坦福大学联...
OneDiffusion:能够实现图像合成和理解的双向任务
OneDiffusion简介 OneDiffusion是由AI2团队开发的一款多功能大规模扩散模型,它能够实现图像合成和理解的双向任务,覆盖文本到图像的生成、条件图像生成、图...
MuCodec:清华&腾讯等联合推出的超低比特率音乐编解码器
MuCodec简介 MuCodec是由清华大学深圳国际研究生院和腾讯AI实验室联合开发的一种超低比特率音乐编解码器。它专门针对音乐压缩和重建任务,通过提取声学和语义...