2.应用工具相关
MDM:苹果开源的新型图像&视频生成模型
MDM简介 Matryoshka Diffusion Models(MDM)是由苹果公司开发的创新框架,旨在解决生成高分辨率图像和视频时面临的计算和优化挑战。MDM通过一个端到端的多分...
LSLM:具备边听边说能力的语音模型,实现实时的双向交流
LSLM简介 LSLM(Listening-while-Speaking Language Model)是由上海交通大学人工智能教育部重点实验室X-LANCE实验室与字节跳动公司联合开发的创新性端到端模...
Deep-Live-Cam:一款开源的 AI 实时换脸工具
Deep-Live-Cam简介 Deep-Live-Cam 是一个开源的 AI 实时换脸工具,它通过先进的实时面部识别和替换技术,仅需一张静态图片,便能在视频流或直播中以假乱真地...
Aide:一款免费开源的AI 编程插件
Aide简介 Aide是一个开源的Visual Studio Code插件,它通过一系列强大的功能,如一键代码转换、智能注释添加、内容智能粘贴、AI驱动的批量文件处理、变量名智...
Matting by Generation:一种新型的图像抠图技术
Matting by Generation简介 'Matting by Generation'是一种前沿的图像抠图技术,它将传统的基于回归的抠图任务转化为一种生成模型问题。这项技术通过使用潜在...
SAM-Graph:基于多视图信息的3D实例分割框架
SAM-Graph简介 SAM-Graph是一种创新的3D实例分割方法,由浙江大学、北京师范大学、蚂蚁集团和深圳大学的联合研究团队开发。该方法通过结合3D几何信息和多视图...
EmoTalk3D:情感可控3D会说话头部模型
EmoTalk3D项目简介 EmoTalk3D 是由南京大学新型软件技术国家重点实验室联合复旦大学和华为诺亚方舟实验室共同开发的一项先进技术。这项技术通过一个创新的‘Sp...
Lumina-mGPT:利用多模态生成预训练生成高逼真图像
Lumina-mGPT简介 Lumina-mGPT是由上海人工智能实验室和香港中文大学的联合研究团队开发的一款先进的多模态自回归模型。它通过多模态生成预训练(mGPT),利用...
SceneTeller:通过文本描述生成高质量3D场景
SceneTeller简介 SceneTeller是由阿姆斯特丹大学的UvA-Bosch Delta Lab与博世公司的Bosch Center for AI合作开发的一项创新技术。这项技术能够根据自然语言描...
Whisper-Medusa:aiOla开源的AI语音识别模型
whisper-medusa简介 Whisper-Medusa是由aiOla推出的开源AI语音识别模型,它结合了OpenAI的Whisper模型和aiOla的技术,实现了超过50%的加速而不影响识别的准确...