AI项目合集

CogVLM2:智谱AI推出的新一代多模态大模型

CogVLM2简介 CogVLM2是由智谱AI推出的创新多模态大模型,它集成了50亿参数的视觉编码器和70亿参数的视觉专家模块,实现了视觉与语言理解的显著性能提升。该模...

ZeST:将一个图像中的材质直接迁移到另一个图像上

ZeST项目介绍 ZeST是一种基于深度学习的图像处理技术,专注于实现零样本下的材质迁移。它通过使用扩散适配器从示例图像中提取材质的隐含表示,并利用预训练的...

Veo:谷歌推出的一款视频生成模型

Veo简介 Veo是由谷歌推出的一款视频生成模型,它通过先进的技术能够根据文本提示生成1080p高分辨率、时长超过一分钟的视频。该模型支持广泛的电影和视觉风格...

混元-DiT:首个中英双语DiT架构的文本到图像生成模型

混元DiT项目介绍 混元DiT(Hunyuan-DiT)是由腾讯混元团队开发的先进文本到图像生成模型,它利用多分辨率扩散Transformer技术,实现了对中英文文本的细粒度理...

GPT-4o:OpenAI最新发布的多模态人工智能模型

GPT-4o简介 GPT-4o是由OpenAI最新发布的一款多模态人工智能模型,GPT-4o中的“o”代表“Omni”,意为全能。它能够高效地处理和生成文本、音频和图像。这款模型在...

ConsistentID:生成高保真度和细节丰富的个性化面部图像

ConsistentID项目介绍 ConsistentID项目是由中山大学深圳校区、中山大学珠海校区、联想研究院以及人工智能创始研究所的联合研究团队开发的一项先进技术。该团...

AniTalker:通过静态肖像和音频输入生成能说话的视频

AniTalker项目介绍 AniTalker是由上海交通大学X-LANCE实验室和AISpeech有限公司共同开发的面部动画框架。该框架利用自监督学习技术,通过单张静态肖像和音频...

PuLID:字节跳动提出的一种先进的文本到图像生成技术

PuLID项目介绍 PuLID(Pure and Lightning ID Customization via Contrastive Alignment)是由字节跳动公司提出的一种先进的文本到图像生成技术。它通过对比...

IC-Light: AI图像光照革新,一键实现专业打光效果

IC-Light项目介绍 IC-Light是一款能够操控图像生成时光照效果的AI工具,由Controlnet的作者推出,最近在网络上引起了广泛关注。这款工具在图像编辑领域带来了...

ID-Animator:单张人脸照片就可以生成高质量的特定人体视频

ID-Animator项目简介 ID-Animator是一个零样本人类视频生成方法,它能够在不需要进一步训练的情况下,使用单个参考面部图像进行个性化视频生成。该方法继承了...
1 29 30 31 32 33 38