博客 | 第 95 页 | 柒柒AI导航

MVDrag3D：能够在多个正交视图上进行一致的3D拖拽编辑

MVDrag3D简介 MVDrag3D是一种创新的3D编辑框架，它通过结合多视图生成和重建先验来实现灵活且富有创意的拖拽式3D编辑。该框架首先利用多视图扩散模型作为强大...

2-6.应用工具3D

6个月前

DriveDreamer4D简介 DriveDreamer4D是一个创新的4D驾驶场景表示框架，它通过整合世界模型先验来显著提升自动驾驶系统中复杂驾驶操作（如变道、加速、减速）的...

2-5.应用工具其他

6个月前

FasterCache简介 FasterCache是一种创新的无需训练的策略，由香港大学、南洋理工大学S-Lab和上海人工智能实验室联合开发，旨在显著加速视频扩散模型的推理过...

2-3.应用工具视频

6个月前

PersonaTalk简介 PersonaTalk是由字节跳动公司开发的一项先进的视觉配音技术，它通过一个基于注意力的两阶段框架，能够合成高保真度和个性化的唇部同步视频，...

2-3.应用工具视频

6个月前

Video-XL简介 Video-XL是智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校联合推出的超长视觉语言模型，专为小时级视频理解而设...

3-3.视频生成模型

6个月前

CAMI2V简介 CAMI2V是由浙江大学计算机科学与技术学院的研究团队开发的先进图像到视频扩散模型，它通过引入极线注意力机制和注册令牌，显著提升了相机控制的精...

2-3.应用工具视频

6个月前

TextHarmony简介 TextHarmony是由华东师范大学和字节跳动的联合研究团队开发的一款创新的多模态生成模型，它在视觉文本理解和生成领域展现了卓越的能力。该模...

3-5.多模态模型

6个月前

NotebookLlama简介 NotebookLlama 是 Meta 推出的开源项目，利用 LLaMa 模型将 PDF 文档转换成播客内容。它通过自动化流程进行 PDF 预处理、生成播客脚本、增...

2-4.应用工具音频

6个月前

Framer简介 Framer是由浙江大学与蚂蚁集团联合开发的一款创新性的交互式帧插值工具，它允许用户通过定制关键点轨迹来生成两个图像间平滑过渡的帧，从而实现更...

2-2.应用工具图像

6个月前

OmniParser简介 OmniParser是由微软研究院开发的一种创新的视觉语言模型，旨在提升基于用户界面的代理系统在不同操作系统和应用程序中的操作能力。该工具通过...

AI开源项目

6个月前