AI开源项目
D-Edit:将图像分割成多个可编辑的项目 实现精确控制
D-Edit简介 D-Edit是由耶鲁大学、新加坡国立大学和Collov Labs联合开发的先进图像编辑框架,它通过将图像分割成多个可编辑的项目,并为每个项目分配独特的提...
DreamClear:提供逼真的高质量图像恢复效果
DreamClear简介 DreamClear是一种先进的高容量图像恢复模型,旨在处理真实世界中的低质量图像并提供逼真的高质量图像恢复效果。它基于Diffusion Transformer...
EcomID:通过一张参考图像生成高度定制的个性化图像
EcomID简介 EcomID是阿里妈妈推出的一款创新性开源框架,旨在通过单个参考图像生成个性化的图像。该技术结合了PuLID和InstantID的优势,显著提升了生成图像的...
VILA-U:能够理解和处理涉及图像和语言的任务
VILA-U简介 VILA-U是一个创新的统一视觉语言模型,它整合了视频、图像和语言的理解和生成能力。与传统视觉语言模型不同,VILA-U采用单一的自回归下一个token...
ROCKET-1:提升视觉语言模型在开放世界环境中的交互能力
ROCKET-1简介 ROCKET-1是一个由北京大学、加州大学洛杉矶分校和BIGAI团队共同开发的先进低层次策略模型,旨在通过视觉-时间上下文提示协议,提升视觉语言模型...
DriveDreamer4D:通过世界模型增强4D驾驶场景表示的框架
DriveDreamer4D简介 DriveDreamer4D是一个创新的4D驾驶场景表示框架,它通过整合世界模型先验来显著提升自动驾驶系统中复杂驾驶操作(如变道、加速、减速)的...
FasterCache:加速视频扩散模型的推理过程 同时保持视频生成的高质量
FasterCache简介 FasterCache是一种创新的无需训练的策略,由香港大学、南洋理工大学S-Lab和上海人工智能实验室联合开发,旨在显著加速视频扩散模型的推理过...
PersonaTalk:合成与目标音频高度同步的唇部动作 生成逼真的配音视频
PersonaTalk简介 PersonaTalk是由字节跳动公司开发的一项先进的视觉配音技术,它通过一个基于注意力的两阶段框架,能够合成高保真度和个性化的唇部同步视频,...
Video-XL:智源联合多数高校推出的超长视频理解大模型
Video-XL简介 Video-XL是智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校联合推出的超长视觉语言模型,专为小时级视频理解而设...
CAMI2V:根据文本提示精确控制视频中的相机姿态
CAMI2V简介 CAMI2V是由浙江大学计算机科学与技术学院的研究团队开发的先进图像到视频扩散模型,它通过引入极线注意力机制和注册令牌,显著提升了相机控制的精...