AI开源项目
TIME-MOE:采用混合专家(MoE)架构的时间序列预测模型
TIME-MOE简介 TIME-MOE是一种创新的大规模时间序列预测模型,采用混合专家(MoE)架构,通过激活模型中只有一部分网络来提高计算效率,同时保持模型的高容量。...
FakeShield:北京推出的多模态大型图像伪造检测和定位框架
FakeShield简介 FakeShield是由北京大学电子与计算机工程学院的研究团队开发的一种先进的多模态大型图像伪造检测和定位框架。该框架能够评估图像的真实性,生...
Moonshine:专为实时语音转录和命令处理而优化的语音识别模型
Moonshine简介 Moonshine是一套专为实时语音转录和命令处理而优化的语音识别模型。基于编码器-解码器变换器架构,并采用旋转位置嵌入(RoPE)技术,它在不使用...
Head Avatar:从单张图像中重建出三维可动画化的头像
Head Avatar简介 Head Avatar是由东京大学推出的一种新型三维头像生成技术,这项技术能够从单张图片中快速重建出具有高度逼真度和灵活性的三维头像,并实现实...
Easegen:一个开源的数字人课程制作平台
Easegen简介 Easegen是一个开源的AI数字人课程制作平台,旨在简化教育内容的创建与管理。用户可以通过上传PPT课件,轻松生成数字人视频课程,提升课程的互动...
Mochi 1:Genmo推出的开源视频生成模型
Mochi 1简介 Mochi 1是由Genmo推出的开源视频生成模型,基于非对称扩散变换器(AsymmDiT)架构,拥有10亿个参数,是当前最大的公开视频生成模型。它能够生成...
PaddleOCR 2.9:百度飞桨推出的开源光学字符识别(OCR)工具包
PaddleOCR 2.9简介 PaddleOCR 2.9是由百度飞桨(PaddlePaddle)推出的一款开源光学字符识别(OCR)工具包。该版本引入了多项新特性,包括直接保存OCR输出结果...
Janus:DeepSeek-AI推出的一款多模态理解和生成框架
Janus简介 Janus是由DeepSeek-AI推出的一款多模态理解和生成框架。该框架通过创新性地将视觉编码分离成独立的路径,有效地解决了多模态理解和视觉生成任务之...
Allegro:Rhymes AI推出的一款商业级视频生成模型
Allegro简介 Allegro是由Rhymes AI推出的一款商业级视频生成模型,它通过高质量的文本描述能够生成具有卓越质量和时间一致性的视频内容。该模型在用户研究中...
Stable Diffusion 3.5: Stability AI 最新推出的图像生成模型
Stable Diffusion 3.5简介 Stable Diffusion 3.5 是由 Stability AI 最新推出的开源图像生成模型,旨在提升用户的创作体验。该版本引入了三种模型:Stable Di...