AI开源项目 | 第 20 页

D-Edit：将图像分割成多个可编辑的项目实现精确控制

D-Edit简介 D-Edit是由耶鲁大学、新加坡国立大学和Collov Labs联合开发的先进图像编辑框架，它通过将图像分割成多个可编辑的项目，并为每个项目分配独特的提...

2-2.应用工具图像

2个月前

DreamClear简介 DreamClear是一种先进的高容量图像恢复模型，旨在处理真实世界中的低质量图像并提供逼真的高质量图像恢复效果。它基于Diffusion Transformer...

2-2.应用工具图像

2个月前

EcomID简介 EcomID是阿里妈妈推出的一款创新性开源框架，旨在通过单个参考图像生成个性化的图像。该技术结合了PuLID和InstantID的优势，显著提升了生成图像的...

2-2.应用工具图像

2个月前

VILA-U简介 VILA-U是一个创新的统一视觉语言模型，它整合了视频、图像和语言的理解和生成能力。与传统视觉语言模型不同，VILA-U采用单一的自回归下一个token...

3-5.多模态模型

2个月前

ROCKET-1简介 ROCKET-1是一个由北京大学、加州大学洛杉矶分校和BIGAI团队共同开发的先进低层次策略模型，旨在通过视觉-时间上下文提示协议，提升视觉语言模型...

2-5.应用工具其他

2个月前

DriveDreamer4D简介 DriveDreamer4D是一个创新的4D驾驶场景表示框架，它通过整合世界模型先验来显著提升自动驾驶系统中复杂驾驶操作（如变道、加速、减速）的...

2-5.应用工具其他

2个月前

FasterCache简介 FasterCache是一种创新的无需训练的策略，由香港大学、南洋理工大学S-Lab和上海人工智能实验室联合开发，旨在显著加速视频扩散模型的推理过...

2-3.应用工具视频

2个月前

PersonaTalk简介 PersonaTalk是由字节跳动公司开发的一项先进的视觉配音技术，它通过一个基于注意力的两阶段框架，能够合成高保真度和个性化的唇部同步视频，...

2-3.应用工具视频

2个月前

Video-XL简介 Video-XL是智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校联合推出的超长视觉语言模型，专为小时级视频理解而设...

3-3.视频生成模型

2个月前

CAMI2V简介 CAMI2V是由浙江大学计算机科学与技术学院的研究团队开发的先进图像到视频扩散模型，它通过引入极线注意力机制和注册令牌，显著提升了相机控制的精...

2-3.应用工具视频

2个月前