3.AI大模型数据库
Lumina-mGPT:利用多模态生成预训练生成高逼真图像
Lumina-mGPT简介 Lumina-mGPT是由上海人工智能实验室和香港中文大学的联合研究团队开发的一款先进的多模态自回归模型。它通过多模态生成预训练(mGPT),利用...
SceneTeller:通过文本描述生成高质量3D场景
SceneTeller简介 SceneTeller是由阿姆斯特丹大学的UvA-Bosch Delta Lab与博世公司的Bosch Center for AI合作开发的一项创新技术。这项技术能够根据自然语言描...
Whisper-Medusa:aiOla开源的AI语音识别模型
whisper-medusa简介 Whisper-Medusa是由aiOla推出的开源AI语音识别模型,它结合了OpenAI的Whisper模型和aiOla的技术,实现了超过50%的加速而不影响识别的准确...
Tora:阿里推出的基于轨迹导向的扩散变换器视频生成框架
Tora简介 Tora是由阿里巴巴集团开发的一款创新的视频生成框架,它融合了轨迹导向的扩散变换器技术,能够根据文本、图像和轨迹条件生成高质量视频。这一突破性...
Clapper :可将剧本解释并渲染成分镜头、视频、语音、声音和音乐。
Clapper项目简介 Clapper是一个开源的AI故事可视化工具,旨在将剧本解释并渲染成分镜头、视频、语音、声音和音乐。它目前处于早期开发阶段,由Julian Bilcke...
SF3D:Stability AI推出的能在0.5秒内从单张图片生成3D模型
SF3D简介 SF3D是一种创新的3D网格重建技术,由Stability AI团队开发,能够从单张图片快速生成具有材料属性和UV展开纹理的高质量3D网格。这一技术在0.5秒内完...
FLUX.1:Black Forest Labs 推出的全新图像生成模型
FLUX.1简介 FLUX.1 是由 Black Forest Labs 最新推出的开源 AI 图像生成模型,这个团队也是 Stable Diffusion 的原班人马。该模型拥有12B参数,是迄今为止最...
谷歌发布全新“开放式”人工智能模型,重点关注安全
Gemma 2系列新成员 谷歌DeepMind于2024年8月1日宣布发布了Gemma 2系列的新成员,其中包括20亿参数的小模型Gemma 2B。这个新模型在大模型竞技场LMSYS Chatbot ...
SAM 2 :Meta AI 推出的能在图片和视频中实时分割对象的模型
SAM 2简介 2024年7月29日,Meta公司发布了Meta Segment Anything Model 2(SAM 2),这是首个支持视频和图像中实时可提示对象分割的统一模型,实现了最先进的...
MINT-1T:具有一万亿个 token的多模态数据集
MINT-1T简介 MINT-1T是由华盛顿大学、Salesforce Research、斯坦福大学、德克萨斯大学奥斯汀分校和加州大学伯克利分校的联合研究团队开发的一个大规模、多模...