2.应用工具相关
Aide:一款免费开源的AI 编程插件
Aide简介 Aide是一个开源的Visual Studio Code插件,它通过一系列强大的功能,如一键代码转换、智能注释添加、内容智能粘贴、AI驱动的批量文件处理、变量名智...
Matting by Generation:一种新型的图像抠图技术
Matting by Generation简介 'Matting by Generation'是一种前沿的图像抠图技术,它将传统的基于回归的抠图任务转化为一种生成模型问题。这项技术通过使用潜在...
SAM-Graph:基于多视图信息的3D实例分割框架
SAM-Graph简介 SAM-Graph是一种创新的3D实例分割方法,由浙江大学、北京师范大学、蚂蚁集团和深圳大学的联合研究团队开发。该方法通过结合3D几何信息和多视图...
EmoTalk3D:情感可控3D会说话头部模型
EmoTalk3D项目简介 EmoTalk3D 是由南京大学新型软件技术国家重点实验室联合复旦大学和华为诺亚方舟实验室共同开发的一项先进技术。这项技术通过一个创新的‘Sp...
Lumina-mGPT:利用多模态生成预训练生成高逼真图像
Lumina-mGPT简介 Lumina-mGPT是由上海人工智能实验室和香港中文大学的联合研究团队开发的一款先进的多模态自回归模型。它通过多模态生成预训练(mGPT),利用...
SceneTeller:通过文本描述生成高质量3D场景
SceneTeller简介 SceneTeller是由阿姆斯特丹大学的UvA-Bosch Delta Lab与博世公司的Bosch Center for AI合作开发的一项创新技术。这项技术能够根据自然语言描...
Whisper-Medusa:aiOla开源的AI语音识别模型
whisper-medusa简介 Whisper-Medusa是由aiOla推出的开源AI语音识别模型,它结合了OpenAI的Whisper模型和aiOla的技术,实现了超过50%的加速而不影响识别的准确...
Miner U:开源数据提取工具,支持PDF/网页/多格式电子书提取。
Miner U简介 MinerU是由OpenDataLab团队开发的开源智能数据提取工具,它专门针对复杂PDF文档设计,能够高效地将文档中的文本、图片、公式和表格等内容转换成...
Tora:阿里推出的基于轨迹导向的扩散变换器视频生成框架
Tora简介 Tora是由阿里巴巴集团开发的一款创新的视频生成框架,它融合了轨迹导向的扩散变换器技术,能够根据文本、图像和轨迹条件生成高质量视频。这一突破性...
Clapper :可将剧本解释并渲染成分镜头、视频、语音、声音和音乐。
Clapper项目简介 Clapper是一个开源的AI故事可视化工具,旨在将剧本解释并渲染成分镜头、视频、语音、声音和音乐。它目前处于早期开发阶段,由Julian Bilcke...