CAP4D:能够从参考图像中重建出逼真的4D人像化身
CAP4D简介 CAP4D是由加拿大多伦多大学和Vector Institute的研究团队开发的一种创新方法,它利用可变形的多视图扩散模型(Morphable Multi-View Diffusion Mod...
CLEAR:提高预训练扩散变换器在超分辨率图像生成中的效率
CLEAR简介 CLEAR是一种线性注意力机制,由新加坡国立大学的研究团队开发,旨在提高预训练扩散变换器(DiTs)在高分辨率图像生成任务中的效率。通过引入局部性...
LeviTor:3D轨迹导向图像到视频合成技术
LeviTor简介 LeviTor是一种创新的3D轨迹导向图像到视频合成方法,它通过将对象掩码抽象成聚类点并结合深度信息,实现了在3D空间中对物体运动的精确控制。用户...
CrossFlow:能够直接将一种模态(如文本)演化成另一种模态(如图像)
CrossFlow简介 CrossFlow是一个创新的跨模态演变框架,它能够直接将一种模态(如文本)演化成另一种模态(如图像),而无需依赖噪声分布或条件机制。利用流匹...
UIP2P:一种无监督指令驱动图像编辑框架
UIP2P简介 UIP2P是一种创新的无监督指令驱动图像编辑框架,它通过引入循环编辑一致性(CEC)机制,消除了训练过程中对真实编辑图像的依赖。这种方法能够在图...
Sketch2Sound:能够根据声音模仿(如口头模仿)生成声音
Sketch2Sound简介 Sketch2Sound是一个音频生成模型,它能够通过理解和响应时间变化的控制信号(如响度、亮度和音高)以及文本提示,从声音模仿中合成高质量的...
INFP:一个音频驱动的交互式头部生成框架
INFP简介 INFP是一个音频驱动的交互式头部生成框架,专为双人对话场景设计,能够根据双向音频输入和单人肖像图像动态合成具有逼真面部表情和头部动作的视频。...
ChatDiT:阿里通义推出的零样本图像生成框架
ChatDiT简介 ChatDiT是由阿里通义推出的一种基于预训练扩散变换器的零样本、通用型、交互式视觉生成框架。它无需额外训练或结构修改,能够通过自然语言指令与...
AniDoc:将草图序列自动转换为彩色动画
AniDoc简介 AniDoc是由香港科技大学、蚂蚁集团、南京大学、浙江大学和香港大学的研究人员联合开发的动画创作工具,旨在通过强大的生成性AI技术简化2D动画的制...
UniReal:Adobe联合香港大学推出的图像生成与编辑框架
UniReal简介 UniReal是由香港大学和Adobe的研究人员共同开发的一个先进框架,它通过学习现实世界的动态,能够统一处理多种图像生成和编辑任务。该框架将图像...