AI开源项目
RobotFingerPrint:为多种不同的机械夹爪生成有效的抓取姿态
RobotFingerPrint简介 RobotFingerPrint是由德克萨斯大学达拉斯分校计算机科学系的研究团队开发的一种创新性抓取合成方法。该技术提出了统一夹爪坐标空间(UG...
DepthFlow:一款高度可定制的 2.5D 平面动画工具
DepthFlow简介 DepthFlow 是一款高度可定制的 2.5D 平面动画工具,旨在为图像创建生动的视差效果。作为一个免费开源的项目,它通过 Gradio 提供用户友好的网...
Oryx MLLM:清华、腾讯以及南洋理工联合推出的多模态大型语言模型
Oryx MLLM简介 Oryx MLLM是由清华大学、腾讯公司以及南洋理工大学S-Lab联合开发的多模态大型语言模型。该模型通过创新的预训练OryxViT视觉编码器和动态压缩模...
PMRF:一种新颖的照片级真实感图像恢复算法
PMRF简介 Posterior-Mean Rectified Flow (PMRF) 是一种先进的图像恢复算法,由以色列理工学院的开发团队提出,旨在实现最小均方误差(MSE)的图像复原,同时...
Emu3:BAAI推出的一款高效多模态模型
Emu3简介 Emu3是由BAAI推出的一款多模态模型,它通过单一的Transformer架构和next-token prediction方法,在视频、图像和文本的生成与感知任务上取得了突破性...
WebDesignAgent:一款自动化网站设计工具
WebDesignAgent 简介 WebDesignAgent 是一款自动化网站设计工具,旨在简化网站创建过程。用户只需输入文本描述、上传图片或提供视觉布局,WebDesignAgent 就...
Voice-Pro:一款集字幕、翻译和TTS于一体的多语言音频处理工具
Voice-Pro简介 Voice-Pro是一款集字幕、翻译和文本转语音(TTS)于一体的多语言音频处理工具,旨在为内容创作者提供高效的解决方案。它支持超过90种语言的实...
Whisper large-v3-turbo :OpenAI推出的语音识别模型
Whisper large-v3-turbo 简介 Whisper v3 Turbo是OpenAI最新推出的自动语音识别(ASR)模型,旨在显著提高转录速度,同时保持高准确性。与之前的模型相比,T...
MiKaPo:实时捕捉视频中的人物动作并同步到 3D MMD 模型上
MiKaPo简介 MiKaPo 是一款基于 Web 的动作捕捉工具,专为二次元爱好者和动画制作者设计。它能够实时捕捉视频中的人物动作并同步到 3D MMD 模型上,无需任何外...
FLEX3D:从文本、单张图片或少量视图图片生成高质量的3D内容
FLEX3D简介 FLEX3D是由Meta的GenAI团队与牛津大学合作开发的一种创新的3D内容生成框架。它通过一个灵活的重建模型和输入视图审查系统,能够从文本、单张图片...