AI开源项目
HART:麻省理工学院、英伟达和清华联合推出的图像生成模型
HART简介 HART(Hybrid Autoregressive Transformer)是由麻省理工学院、英伟达和清华大学的联合研究团队开发的一种先进的自回归图像生成模型。该模型能够直...
BiGR:香港大学等推出的新型条件图像生成模型
BiGR简介 BiGR是由香港大学、香港科技大学、云天励飞和香港中文大学联合推出的一种创新的条件图像生成模型,它通过使用紧凑的二进制潜在代码来增强图像的生成...
GAGAvatar:能够从单张图像中重建出可动画化的3D头像
GAGAvatar简介 GAGAvatar是由东京大学的研究团队开发的一种创新的一次性可动画化头部头像重建方法。这项技术通过单张图像生成3D高斯参数,能够实现快速的表情...
mPLUG-DocOwl 1.5:阿里&中国人民大学推出的一款OCR-free文档理解模型
mPLUG-DocOwl 1.5简介 mPLUG-DocOwl 1.5是由阿里巴巴集团与中国人民大学联合开发的一款先进的OCR-free文档理解模型。该模型通过统一结构学习,能够在无需光学...
CAVIA:苹果、谷歌等团队联合推出的多视图视频生成框架
CAVIA简介 CAVIA是一种创新的多视图视频生成框架,由德克萨斯大学奥斯汀分校、苹果公司和谷歌的联合研究团队开发。该框架能够将单张图片转换成多个时空一致的...
SPIRIT-LM:能理解和生成文本和语音 实现两种模态之间的无缝转换
SPIRIT-LM简介 SPIRIT-LM是由Meta AI团队开发的一种创新的多模态语言模型,它能够无缝地混合和理解文本与语音数据。该模型通过在大量文本和语音单位上进行连...
TANGO:生成与目标语音同步的全身手势视频
TANGO简介 TANGO是由东京大学与CyberAgent AI Lab联合推出的开源框架,旨在通过运动图检索方法生成与目标语音同步的共语手势视频。该框架通过层次化的音频-运...
Hallo2:复旦大学、百度和南京大学联合推出的人像图像动画化模型
Hallo2简介 Hallo2是由复旦大学、百度公司和南京大学的研究团队共同开发的最新人像图像动画化模型。该模型能够在保持4K高分辨率的同时,生成长达数十分钟的音...
Ministral 3B/8B:Ministral AI推出的两款新型AI模型
Ministral 3B/8B简介 Ministral 3B和 8B是Ministral AI推出的两款新型AI模型,旨在提升边缘计算和设备端的智能能力。这些模型支持高达128,000个token的上下文...
Nemotron-70B-Instruct:英伟达开源的大语言模型
Nemotron-70B-Instruct简介 Nemotron-70B-Instruct 是英伟达开原的一款高性能大型语言模型,专注于提升自然语言处理的质量和效率。基于先进的变换器架构,该...