AI项目合集

Llama 3:Meta最新开源推出的大型语言模型

Llama 3简介 Llama 3是Meta公司最新开源推出的大型语言模型,具有8B和70B两种参数规模,支持广泛的语言处理任务。它在超过15万亿个token的大规模数据集上进行...

CodeGemma-谷歌推出的开源代码大模型

CodeGemma简介 CodeGemma 是 Google 推出的开源代码大模型,它基于 Google DeepMind 的 Gemma 模型构建,专注于代码生成和理解。这个模型家族包括三种不同规...

MagicClothing:生成图像中的服装与指定的服装高度一致

MagicClothing项目介绍 MagicClothing是一项创新的图像合成技术,它基于潜在扩散模型(LDM)构建了一个能够根据目标服装和文本提示生成定制化角色图像的网络...

Parler-TTS:Hugging Face开源的文本转语音模型

Parler-TTS项目介绍 Parler-TTS是一个由HuggingFace开发的轻量级文本转语音(TTS)模型,能够根据文本输入生成高质量、自然听起来的语音,并且模仿不同的说话风...

AniPortrait:腾讯开发的音频驱动的肖像动画合成框架

AniPortrait项目介绍 AniPortrait是一款由腾讯研究人员开发的音频驱动的肖像动画合成框架。它可以利用输入的音频和静态人脸图片生成逼真的动态视频。AniPortr...

Ferret-UI:苹果推出的用于理解和交互移动用户界面的AI模型

Ferret-UI简介 Ferret-UI是苹果公司推出的一款多模态大型语言模型,专门设计用于理解和交互移动用户界面。它结合了自然语言处理和计算机视觉技术,能够识别和...

HairFastGAN:实现在不同图像之间转移发型

HairFastGAN项目介绍 HairFastGAN是由AIRI-Institute开发的一个创新项目,旨在通过快速编码器方法实现逼真的头发转移。该项目利用生成对抗网络(GAN)技术,...

Real-time-translation-typing:实时翻译打字功能

Real-time-translation-typing简介 Real-time-translation-typing 是一款创新的实时翻译辅助工具,专为需要在输入中文时即刻获取英文翻译的用户设计。它通过...

Grok-1.5V : 马斯克旗下xAI 开源的多模态 AI 大模型

Grok-1.5V简介 Grok-1.5V 是由马斯克旗下的人工智能公司 xAI 推出的一款创新多模态 AI 大模型。它不仅具备卓越的文本处理能力,还能理解和分析各种视觉信息,...

GRM:斯坦福大学等开发的一个创新的3D重建和生成模型

GRM项目介绍 GRM(Gaussian Reconstruction Model)是由斯坦福大学、香港科技大学、上海人工智能实验室、浙江大学和蚂蚁集团的研究人员共同开发的一个创新的3...
1 31 32 33 34 35 37