AI论文

Click2Mask:允许用户在图像的特定区域添加、修改或删除内容

Click2Mask简介 Click2Mask 是由耶路撒冷希伯来大学的研究团队开发的一种创新图像编辑方法,它通过用户仅提供一个参考点和内容描述,便能自动生成动态遮罩并...

IFAdapter:能够精确控制生成的图像中每个对象的位置和特征

IFAdapter简介 IFAdapter是由新加坡国立大学和腾讯联合开发的一种创新技术,旨在提升基于文本的图像生成模型在处理多个实例时的精确度和特征细节。该技术通过...

Draw an Audio:将无声视频转换成包含日常音效的音频

Draw an Audio简介 Draw an Audio是由中国科学院自动化研究所和美团公司的研究团队共同开发的一种创新的视频到音频合成技术。该技术通过先进的遮罩注意力模块...

Loopy:字节&浙大推出的音频驱动视频生成模型

Loopy简介 Loopy是由字节跳动公司和浙江大学的研究团队共同开发的一种先进的音频驱动视频生成模型。该模型采用端到端的设计,专注于利用长期运动依赖性来提高...

DiffUHaul:无需额外训练即可实现图像中对象的无缝拖动

DiffUHaul简介 DiffUHaul是由NVIDIA Research、耶路撒冷希伯来大学、特拉维夫大学和Reichman大学共同研发的一项创新技术。这项技术通过利用局部文本到图像模...

InterTrack:能够从单目RGB视频中跟踪人体与物体的互动

InterTrack简介 InterTrack是由德国图宾根大学、图宾根人工智能中心以及马克斯·普朗克信息学研究所的研究人员开发的一种先进的跟踪技术。这项技术能够从单目R...

GameNGen:首个由神经模型驱动的实时游戏引擎

GameNGen简介 GameNGen是由谷歌推出的创新游戏引擎,它完全基于神经模型,能够实现实时与复杂环境的交互。这个引擎能够以高帧率和高质量模拟经典游戏,如DOOM...

DiPIR:在真实世界场景图像中逼真地插入虚拟对象

DiPIR简介 DiPIR是由NVIDIA的研究团队开发的先进技术,利用扩散模型作为指导,结合基于物理的逆渲染过程,实现在真实世界场景图像中逼真地插入虚拟对象。这种...

MUMU:一款创新的多模态图像生成模型

MUMU简介 MUMU是由Sutter Hill Ventures的研究团队开发的一款创新的多模态图像生成模型,它能够通过结合文本和图像输入生成新的图像。该模型通过自举方法构建...

HMoE:腾讯混元联合实验室提出的一种新型混合专家模型

HMoE简介 HMoE(Heterogeneous Mixture of Experts)是由腾讯混元联合实验室提出的一种新型混合专家模型,它通过引入大小不同的专家以处理不同复杂性的输入数...
1 2