AI开源项目
MINT-1T:具有一万亿个 token的多模态数据集
MINT-1T简介 MINT-1T是由华盛顿大学、Salesforce Research、斯坦福大学、德克萨斯大学奥斯汀分校和加州大学伯克利分校的联合研究团队开发的一个大规模、多模...
ViPer:能够根据用户的个性化偏好生成图像
ViPer简介 ViPer是一种前沿的图像个性化生成模型,由瑞士联邦理工学院(EPFL)的开发团队所创造。这项技术通过捕捉用户对一系列图像的评论和偏好,利用大型语...
Diffree:通过文本描述智能地在图像中添加新对象
Diffree简介 Diffree是由厦门大学多媒体可信感知与高效计算教育部重点实验室联合上海人工智能实验室OpenGVLab和香港大学的研究团队共同开发的一种创新图像修...
Open-Sora-Plan:致力于复现OpenAI的文本转视频模型Sora
Open-Sora-Plan简介 Open-Sora Plan是由北京大学-兔展AIGC联合实验室发起的一个开源项目,致力于复现OpenAI的文本到视频模型Sora。该项目通过社区协作,不断...
Fooocus:一个免费且开源的文本到图像生成工具,类似SD和MJ
Fooocus简介 Fooocus是一款集创新与便捷于一身的开源AI图像生成工具,它重新构建了Stable Diffusion和Midjourney等现有模型的设计,基于Gradio框架开发。这款...
SpeechGPT:复旦大学等推出的跨模态对话模型
SpeechGPT简介 SpeechGPT 是由复旦大学计算机科学学院和智能信息处理上海重点实验室的研究团队开发的一项创新技术。这项技术突破了传统大型语言模型的局限,...
GaussianEditor:使用高斯溅射实现快速且可控的 3D 编辑
GaussianEditor 简介 GaussianEditor是由南洋理工大学S-Lab和计算机科学与工程学院,以及清华大学计算机科学与技术系的联合研究团队开发的一种创新3D编辑算法...
Bark: Suno AI 推出的一个开源文本到音频模型
Bark简介 Bark 是由 Suno AI 推出的一个开源文本到音频模型,它基于转换器架构,能够生成逼真的多语言语音以及其他类型的音频,包括音乐、背景噪音和简单的音...
Mistral Large 2:Mistral AI 推出的最新一代大语言模型
Mistral Large 2简介 Mistral Large 2 是由法国人工智能初创公司 Mistral AI 开发的最新一代大型语言模型。它拥有 1230 亿参数,支持 128k 的上下文窗口,能...
Llama 3.1:Meta 推出迄今为止最大、最好的开源 AI 模型
Llama3.1简介 Llama 3.1 是 Meta 发布的一系列大型多语言语言模型,包含 8B、70B 和 405B 参数的版本。这些模型不仅支持预训练和指令调整,还具备更长的上下...