2.应用工具相关
Head Avatar:从单张图像中重建出三维可动画化的头像
Head Avatar简介 Head Avatar是由东京大学推出的一种新型三维头像生成技术,这项技术能够从单张图片中快速重建出具有高度逼真度和灵活性的三维头像,并实现实...
Easegen:一个开源的数字人课程制作平台
Easegen简介 Easegen是一个开源的AI数字人课程制作平台,旨在简化教育内容的创建与管理。用户可以通过上传PPT课件,轻松生成数字人视频课程,提升课程的互动...
PaddleOCR 2.9:百度飞桨推出的开源光学字符识别(OCR)工具包
PaddleOCR 2.9简介 PaddleOCR 2.9是由百度飞桨(PaddlePaddle)推出的一款开源光学字符识别(OCR)工具包。该版本引入了多项新特性,包括直接保存OCR输出结果...
BiGR:香港大学等推出的新型条件图像生成模型
BiGR简介 BiGR是由香港大学、香港科技大学、云天励飞和香港中文大学联合推出的一种创新的条件图像生成模型,它通过使用紧凑的二进制潜在代码来增强图像的生成...
mPLUG-DocOwl 1.5:阿里&中国人民大学推出的一款OCR-free文档理解模型
mPLUG-DocOwl 1.5简介 mPLUG-DocOwl 1.5是由阿里巴巴集团与中国人民大学联合开发的一款先进的OCR-free文档理解模型。该模型通过统一结构学习,能够在无需光学...
LONG-LRM:1.3秒 内实现高质量大场景3D高斯重建
LONG-LRM简介 LONG-LRM是由俄勒冈州立大学和Adobe Research联合推出的一种创新3D高斯重建模型,它能够快速从大量输入图像中重建出大型场景的3D表示。该模型结...
CAVIA:苹果、谷歌等团队联合推出的多视图视频生成框架
CAVIA简介 CAVIA是一种创新的多视图视频生成框架,由德克萨斯大学奥斯汀分校、苹果公司和谷歌的联合研究团队开发。该框架能够将单张图片转换成多个时空一致的...
AMT-APC:自动将原始音频轨道转换成钢琴伴奏的MIDI格式
AMT-APC简介 AMT-APC是由Musashino University的数据科学学院开发的自动钢琴伴奏生成算法。该算法通过微调一个先进的自动音乐转录(AMT)模型来提高钢琴伴奏...
TANGO:生成与目标语音同步的全身手势视频
TANGO简介 TANGO是由东京大学与CyberAgent AI Lab联合推出的开源框架,旨在通过运动图检索方法生成与目标语音同步的共语手势视频。该框架通过层次化的音频-运...
Hallo2:复旦大学、百度和南京大学联合推出的人像图像动画化模型
Hallo2简介 Hallo2是由复旦大学、百度公司和南京大学的研究团队共同开发的最新人像图像动画化模型。该模型能够在保持4K高分辨率的同时,生成长达数十分钟的音...