AI开源项目
LEOPAR:腾讯AI西雅图实验室推出的一款多模态大型语言模型
LEOPARD简介 LEOPARD是由腾讯AI西雅图实验室推出的一款多模态大型语言模型(MLLM),专门针对包含丰富文本的多图像任务而设计。该模型通过创建一个包含约一百...
PANGEA:卡内基梅隆大学推出的多语言多模态大型语言模型
PANGEA简介 PANGEA是由卡内基梅隆大学的研究团队开发的一款多语言多模态大型语言模型(LLM),旨在缩小视觉理解任务中的语言和文化差距。该模型经过39种语言...
DreamPolish:智普AI与清华大学联合推出的3D生成模型
DreamPolish简介 DreamPolish是由智普AI与清华大学联合开发的一款先进的文本到3D生成模型,它通过利用多种神经网络表示和表面抛光技术,能够生成具有精细几何...
OmniBooth:华为联合香港科技大学推出的图像生成框架
OmniBooth简介 OmniBooth是由香港科技大学与华为诺亚方舟实验室联合开发的一种先进的图像生成框架,它通过多模态指令实现空间控制和实例级别的定制化。该框架...
MVPaint:腾讯PCG等推出的创新3D纹理生成框架
MVPaint简介 MVPaint是由腾讯PCG、上海人工智能实验室和南洋理工大学S-Lab联合开发的创新3D纹理生成框架。该框架能够根据文本提示生成具有高分辨率和多视图一...
EchoMimicV2:能够生成与音频内容高度一致的高质量动画视频
EchoMimicV2简介 EchoMimicV2是由阿里蚂蚁集团推出的一种创新的半身人体动画生成技术。该技术通过结合参考图像、音频剪辑和手部姿势序列,能够生成与音频内容...
SAMURAI:能够在视频序列中实时跟踪目标对象
SAMURAI简介 SAMURAI是一种基于Segment Anything Model 2(SAM 2)的增强型视觉目标跟踪框架,专门设计用于处理快速移动或自遮挡目标的挑战。它通过整合时序...
DanceFusion:清华大学推出的舞蹈动作生成框架
DanceFusion简介 DanceFusion是由清华大学的研究团队开发的一种创新框架,旨在通过时空骨架扩散变换器重建和生成与音乐同步的舞蹈动作。该框架特别针对社交媒...
AgileGen:天津大学推出的人机协作生成式软件开发框架
AgileGen简介 AgileGen是由天津大学智能与计算学院的研究团队开发的一种基于敏捷方法论的人机协作生成式软件开发框架。该框架通过引入Gherkin语言,将用户需...
LLaVA-o1:清华&北大等联合推出的一种新型视觉语言模型
LLaVA-o1简介 LLaVA-o1是由北京大学电子与计算机工程学院、清华大学跨学科信息科学研究所、鹏城实验室以及AI for Science (AI4S)-Preferred Program联合开发...