AI开源项目

ColorFlow:腾讯联合清华大学推出的图像序列着色模型

ColorFlow简介 ColorFlow是由清华大学与腾讯PCG的ARC实验室联合开发的一种先进的图像序列着色模型,旨在自动化地将黑白图像转换为彩色版本,同时精确保持角色...

RDT-1B:清华大学推出的机器人双手臂操作的基础模型

RDT-1B简介 RDT-1B是由清华大学的研究团队开发的机器人双手臂操作的基础模型,它基于扩散模型,能够有效地表示多模态性,并采用创新的可扩展Transformer架构...

Apollo:Meta和斯坦福大学联合推出的大型多模态模型

Apollo简介 Apollo是Meta GenAI与斯坦福大学合作开发的一系列先进的大型多模态模型(LMMs),旨在深入探索和提升视频理解能力。该模型家族通过系统性研究,优...

BrushEdit:腾讯联合清华等高校推出的图像编辑框架

BrushEdit简介 BrushEdit是由北京大学、腾讯ARC实验室、香港中文大学和清华大学的联合研究团队开发的一款先进的交互式图像编辑框架。该框架结合了多模态大型...

Ruyi:图森未来推出的图生视频大模型

Ruyi简介 Ruyi是图森未来推出的图生视频大模型,基于DiT架构,拥有约71亿参数,支持多分辨率、多时长视频生成。它能够根据用户控制的起始帧和结束帧定制视频...

Megrez-3B-Omni:无问芯穹开源的全球首个端侧全模态理解模型

Megrez-3B-Omni 简介 Megrez-3B-Omni 是无问芯穹开源的全球首个端侧全模态理解模型,它能够处理图像、音频和文本等多种数据类型,具有30亿参数,推理速度快,...

CosyVoice 2:阿里推出的先进流式语音合成模型

CosyVoice 2简介 CosyVoice 2是由阿里巴巴集团开发的先进流式语音合成模型,它通过整合大型语言模型,实现了在流式模式下人类水平的自然度和几乎无损的合成质...

Freestyler:能够直接从歌词和伴奏输入生成说唱声乐

Freestyler简介 Freestyler是由中国西北工业大学音频、语音与语言处理小组(ASLP@NPU)与微软中国合作开发的一款创新系统,它能够直接从歌词和伴奏输入生成说...

DisPose:提高可控人类图像动画的质量和一致性

DisPose简介 DisPose是由北京大学、中国科学技术大学、清华大学和香港科技大学的联合研究团队开发的一种创新插件式引导模块,旨在提高可控人类图像动画的质量...

Lyra:香港中文大学等推出的多模态语言模型

Lyra简介 Lyra是由香港中文大学、SmartMore和香港科技大学的联合研究团队开发的一款高效且以语音为中心的多模态大型语言模型框架。该框架通过先进的语音理解...
1 6 7 8 9 10 46