AI项目库

Ferret-UI:苹果推出的用于理解和交互移动用户界面的AI模型

Ferret-UI简介 Ferret-UI是苹果公司推出的一款多模态大型语言模型,专门设计用于理解和交互移动用户界面。它结合了自然语言处理和计算机视觉技术,能够识别和...

HairFastGAN:实现在不同图像之间转移发型

HairFastGAN项目介绍 HairFastGAN是由AIRI-Institute开发的一个创新项目,旨在通过快速编码器方法实现逼真的头发转移。该项目利用生成对抗网络(GAN)技术,...

Real-time-translation-typing:实时翻译打字功能

Real-time-translation-typing简介 Real-time-translation-typing 是一款创新的实时翻译辅助工具,专为需要在输入中文时即刻获取英文翻译的用户设计。它通过...

Grok-1.5V : 马斯克旗下xAI 开源的多模态 AI 大模型

Grok-1.5V简介 Grok-1.5V 是由马斯克旗下的人工智能公司 xAI 推出的一款创新多模态 AI 大模型。它不仅具备卓越的文本处理能力,还能理解和分析各种视觉信息,...

GRM:斯坦福大学等开发的一个创新的3D重建和生成模型

GRM项目介绍 GRM(Gaussian Reconstruction Model)是由斯坦福大学、香港科技大学、上海人工智能实验室、浙江大学和蚂蚁集团的研究人员共同开发的一个创新的3...

DesignEdit:北大等开发的一种先进的图像编辑技术

DesignEdit项目介绍 DesignEdit是一种先进的图像编辑技术,由微软亚洲研究院和北京大学的联合团队开发。这项技术通过采用多层潜在分解和融合的方法,实现了无...

Open-Sora: Colossal-AI开源的视频生成模型

Open-Sora简介 Open-Sora是由Colossal-AI团队全面开源的视频生成模型,它复现了OpenAI Sora的视频生成能力,旨在促进AI视频创作的发展。该模型基于Diffusion ...

Mora:微软等推出的多智能体视频生成框架

Mora简介 Mora是由微软和理海大学研究人员联合开发的多智能体视频生成框架,旨在模仿并扩展OpenAI的Sora视频生成模型。它通过将视频生成任务分解为多个子任务...

MovieLLM:腾讯等推出的来增强长视频理解的框架

MovieLLM简介 MovieLLM是一个由复旦大学和腾讯PCG共同开发的框架,旨在通过AI生成的电影来增强长视频理解。该框架可以在各种场景上生成具有风格一致的视频画...

Champ:阿里推出的基于3D的人物图片转视频动画模型

Champ项目介绍 Champ是一种创新的3D人物图片转视频动画模型,由阿里巴巴、复旦大学和南京大学的研究人员共同研发。该模型巧妙地结合了3D参数化模型(特别是SM...
1 123 124 125 126 127 129