AI项目合集

Hallo:复旦大学&百度等推出的音频驱动肖像视频生成框架

Hallo项目简介 Hallo是由复旦大学、百度公司、苏黎世联邦理工学院和南京大学的研究团队联合开发的一项创新技术。这项技术通过分层音频驱动的视觉合成方法,实...

OpenVLA:斯坦福等开源的全球首个视觉语言动作大模型

OpenVLA简介 OpenVLA是由斯坦福大学、加州大学伯克利分校、丰田研究所、谷歌DeepMind等机构的研究人员共同开发的开源视觉-语言-动作模型。这个拥有7亿参数的...

英伟达【NVIDIA】开源3400亿参数大模型Nemotron-4 340B

Nemotron-4 340B简介 Nemotron-4 340B是由NVIDIA发布的一系列大型语言模型,包括Nemotron-4-340B-Base,Nemotron-4-340B-Instruct和Nemotron-4-340B-Reward三...

MagicPose:基于扩散模型的2D人体姿态与表情重定向

MagicPose简介 MagicPose是由美国南加州大学与字节跳动公司联合开发的创新模型,它利用基于扩散的机制,实现了对2D人物姿态和面部表情的精准重定向。这项技术...

MS-Diffusion:阿里等推出的一种多主题零样本图像个性化框架

MS-Diffusion项目简介 MS-Diffusion是由阿里巴巴集团和浙江大学的联合研究团队提出的一种多主题零样本图像个性化框架。该框架通过布局引导和特征重采样技术,...

MaxKB:智能问答系统,支持自动爬取在线文档和多模型兼容

MaxKB项目简介 MaxKB(Max Knowledge Base) 是一款基于 LLM 大语言模型的知识库问答系统,提供企业级的知识管理和智能问答服务。作为一个开箱即用的解决方案...

MotionClone:中科大等推出的文本驱动的视频动作克隆框架

MotionClone项目简介 MotionClone是由中国科学技术大学、上海交通大学、香港中文大学和上海人工智能实验室的研究人员共同开发的一种创新框架。它允许用户无需...

Stability AI正式开源最新文生图模型-Stable Diffusion 3 Medium

Stable Diffusion 3 Medium简介 2024年6月12日,Stability AI正式发布开源其最新文生图模型-Stable Diffusion 3 Medium。Stable Diffusion 3 Medium 包含 20 ...

VideoLLaMA 2:阿里云推出的增强视频与音频理解的视频语言模型

VideoLLaMA 2项目简介 VideoLLaMA 2是由阿里云推出的的一个视频大型语言模型(Video-LLMs),旨在提升视频和音频任务中的空间-时间建模和音频理解能力。该模...

Ctrl-X:文本驱动的图像结构与外观控制框架

Ctrl-X项目简介 Ctrl-X是由加州大学洛杉矶分校和NVIDIA的研究团队共同开发的一个先进框架,这项技术允许用户无需额外训练,直接控制图像的结构和外观。这一技...
1 25 26 27 28 29 38