AI开源项目
GameGen-O:腾讯等推出的生成开放世界视频游戏的DiT模型
GameGen-O 简介 GameGen-O 是由香港科技大学、中国科技大学以及腾讯共同开发的先进扩散变换器模型,专门设计用于生成开放世界视频游戏。它模拟游戏引擎特性,...
PyVideoTrans:将视频从一种语言翻译成另一种语言
PyVideoTrans简介 PyVideoTrans是一款开源的视频翻译工具,它能够将视频从一种语言翻译成另一种语言,同时生成并添加相应的字幕和配音。它利用了更快的whisper...
XVERSE-MoE-A36B:元象推出的国内最大的MoE开源模型
XVERSE-MoE-A36B简介 XVERSE-MoE-A36B 是由深圳元象科技自主研发的支持多语言的大语言模型(Large Language Model),使用混合专家模型(MoE,Mixture-of-exp...
Vchitect 2.0:书生蒲语团队推出的AI视频生成模型
Vchitect 2.0简介 Vchitect 2.0 是由书生蒲语团队推出的AI视频生成模型,它通过深度学习和自然语言处理技术,实现了文本到视频和图像到视频的转换功能。这个...
LongCite:提升大型语言模型在长文本问答任务中的可信度
LongCite简介 LongCite是由清华大学与智谱AI联合开发的一项先进技术,旨在提升大型语言模型在长文本问答任务中的性能。通过创新的CoF(Coarse to Fine)管道...
PhotoPrism:一款开源的照片管理工具 能够自动分类和标记照片
PhotoPrism简介 PhotoPrism 是一款开源的照片管理工具,旨在为用户提供一个隐私友好的解决方案来浏览、组织和分享他们的照片和视频。它支持多种流行的图像和...
Pixtral 12B:Mistral 推出的其首款多模态AI模型
9月11日,Mistral AI 公司发布了名为 Pixtral 12B 的多模态 AI 模型,这是他们首次推出的同时具备语言和视觉处理能力的模型。目前,虽然模型还未对公众开放,...
ImageBind:整合图像、文本、音频、深度、热成像和IMU数据等六种不同的模态
ImageBind简介 ImageBind 是由 Meta AI 团队开发的一种先进的多模态学习框架,它通过构建一个联合嵌入空间来整合图像、文本、音频、深度、热成像和IMU数据等...
AppFlowy:一个开源的笔记和任务管理工具
AppFlowy简介 AppFlowy 是一个开源的笔记和任务管理工具,它提供了类似于 Notion 的功能,但更加注重隐私保护和自托管能力。它允许用户在自己的服务器上运行...
Concept Sliders:实现对图像生成中属性的精确控制 如年龄、风格、表情等
Concept Sliders简介 Concept Sliders是由东北大学和麻省理工学院CSAIL的研究人员开发的一种创新方法,它通过在扩散模型中引入低秩参数方向,实现了对图像生...