MVDrag3D:能够在多个正交视图上进行一致的3D拖拽编辑

MVDrag3D简介 MVDrag3D是一种创新的3D编辑框架,它通过结合多视图生成和重建先验来实现灵活且富有创意的拖拽式3D编辑。该框架首先利用多视图扩散模型作为强大...

DriveDreamer4D:通过世界模型增强4D驾驶场景表示的框架

DriveDreamer4D简介 DriveDreamer4D是一个创新的4D驾驶场景表示框架,它通过整合世界模型先验来显著提升自动驾驶系统中复杂驾驶操作(如变道、加速、减速)的...

FasterCache:加速视频扩散模型的推理过程 同时保持视频生成的高质量

FasterCache简介 FasterCache是一种创新的无需训练的策略,由香港大学、南洋理工大学S-Lab和上海人工智能实验室联合开发,旨在显著加速视频扩散模型的推理过...

PersonaTalk:合成与目标音频高度同步的唇部动作 生成逼真的配音视频

PersonaTalk简介 PersonaTalk是由字节跳动公司开发的一项先进的视觉配音技术,它通过一个基于注意力的两阶段框架,能够合成高保真度和个性化的唇部同步视频,...

Video-XL:智源联合多数高校推出的超长视频理解大模型

Video-XL简介 Video-XL是智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校联合推出的超长视觉语言模型,专为小时级视频理解而设...

CAMI2V:根据文本提示精确控制视频中的相机姿态

CAMI2V简介 CAMI2V是由浙江大学计算机科学与技术学院的研究团队开发的先进图像到视频扩散模型,它通过引入极线注意力机制和注册令牌,显著提升了相机控制的精...

TextHarmony:华东师范大学和字节联合推出的多模态生成模型

TextHarmony简介 TextHarmony是由华东师范大学和字节跳动的联合研究团队开发的一款创新的多模态生成模型,它在视觉文本理解和生成领域展现了卓越的能力。该模...

NotebookLlama:Meta推出的将 PDF 文档转换成播客内容的开源项目

NotebookLlama简介 NotebookLlama 是 Meta 推出的开源项目,利用 LLaMa 模型将 PDF 文档转换成播客内容。它通过自动化流程进行 PDF 预处理、生成播客脚本、增...

Framer:浙江大学和蚂蚁集团推出的交互式帧插值工具

Framer简介 Framer是由浙江大学与蚂蚁集团联合开发的一款创新性的交互式帧插值工具,它允许用户通过定制关键点轨迹来生成两个图像间平滑过渡的帧,从而实现更...

OmniParser:能描述出页面中的元素 并识别出可操作区域

OmniParser简介 OmniParser是由微软研究院开发的一种创新的视觉语言模型,旨在提升基于用户界面的代理系统在不同操作系统和应用程序中的操作能力。该工具通过...
1 93 94 95 96 97 214