StyleStudio:西湖人文实验室开发文本驱动风格迁移模型
StyleStudio简介 StyleStudio是由西湖大学人工智能实验室、复旦大学和南洋理工大学联合开发的一款文本驱动的风格迁移工具。该工具通过创新的自适应实例归一化...
Leffa:能够根据参考图像(如服装图片)生成人物图像
Leffa简介 Leffa(Learning Flow Fields in Attention)是由Meta AI团队开发的一种创新方法,旨在提高可控人物图像生成的质量和控制精度。通过在注意力机制中...
DiffSensei:北大联合上海人工智能实验室推出的AI漫画生成框
DiffSensei简介 DiffSensei是由北京大学和上海人工智能实验室联合开发的一项创新框架,旨在通过结合多模态大型语言模型(MLLM)和扩散模型,实现定制化漫画的...
Pika Labs推出最新版AI视频生成工具Pika 2.0
Pika Labs于2024年12月14日推出了Pika 2.0,这是其AI视频生成工具的升级版。新版本引入了多个创新功能,包括“场景成分”功能,允许用户上传和自定义视频中的角...
Maya:能够处理和理解八种不同语言的图像和文本数据
Maya简介 Maya是一个开源的多语言多模态视觉语言模型,旨在提升机器对低资源语言和多样文化背景的理解能力。它基于LLaVA框架,提供了一个包含八种语言的558,0...
ClotheDreamer:腾讯联合复旦大学等高校推出的3D服装生成技术
ClotheDreamer简介 ClotheDreamer是由中国上海大学、上海交通大学、复旦大学以及腾讯优图实验室的研究人员共同开发的一种创新3D服装生成技术。该技术能够根据...
SynCamMaster:快手等推出的从多个视角同步生成动态场景视频
SynCamMaster简介 SynCamMaster是由浙江大学、快手、清华大学和香港中文大学联合开发的一项创新技术,旨在通过预训练的文本到视频模型增强,实现从多个视角同...
STIV:苹果推出的可扩展文本和图像条件视频生成框架
STIV简介 STIV是一种新型的可扩展文本和图像条件视频生成框架,由苹果和加州大学洛杉矶分校的研究团队共同开发。该框架通过整合图像条件和文本条件,能够同时...
See3D:北京人工智能学院推出的3D内容创建模型
See3D简介 See3D是由北京人工智能研究院(BAAI)开发的视觉条件多视图扩散模型,它能够利用大规模互联网视频数据进行训练,实现无需姿势标注的开放世界3D内容...
MEMO:根据输入的音频和参考图像生成逼真的说话视频
MEMO简介 MEMO(Memory-guided EMOtionaware diffusion)是由Skywork AI与南洋理工大学以及新加坡国立大学合作开发的一种先进的音频驱动的肖像动画方法,旨在...