2.应用工具相关
MagicTailor:实现文本到图像扩散模型中的组件可控个性化
MagicTailor简介 MagicTailor是一个创新的框架,用于实现文本到图像扩散模型中的组件可控个性化。它通过动态掩码降解(DM-Deg)技术动态扰动不需要的视觉语义...
SeedEdit:字节跳动豆包团队推出的图像编辑模型
SeedEdit 简介 SeedEdit 是由字节跳动豆包团队开发的一个创新扩散模型,它能够通过文本提示对图像进行精确编辑。该模型通过平衡图像重建与再生成任务,实现了...
HelloMeme:能够处理夸张的面部表情和头部姿势
HelloMeme简介 HelloMeme是一种创新的方法,通过在文本到图像基础模型中插入适配器,利用空间编织注意力机制来增强模型性能,从而实现复杂的下游任务。该方法...
π0:Physical Intelligence推出的机器人控制模型
π0简介 π0是由Physical Intelligence团队开发的一种先进的机器人控制模型,它通过预训练视觉-语言模型(VLM)和流匹配架构,能够理解和执行复杂的物理任务。...
INSTANTIR:利用即时生成参考进行盲图像恢复
INSTANTIR简介 INSTANTIR是一种创新的盲图像修复技术,由北京大学和InstantX团队联合开发。这项技术通过动态调整生成条件,利用预训练的扩散概率模型,能够在...
Amphion:一个开源的工具包,专注于音频、音乐和语音生成领域
Amphion简介 Amphion是一个开源的工具包,专注于音频、音乐和语音生成领域,旨在降低初学者和工程师进入这些领域的门槛。它提供了一个统一的框架,支持多种生...
Oasis:Decart和Etched联合推出的AI实时生成游戏系统
Oasis简介 Oasis是由Decart和Etched合作开发的全球首款AI实时生成游戏系统,它能够以每秒20帧的速度实时渲染交互式视频内容,无需游戏引擎,直接通过AI模型生...
HOVER:NVIDIA等推出的人形机器人多模式控制框架
HOVER简介 HOVER(Humanoid Versatile Controller)是由NVIDIA、CMU、UC Berkeley、UT Austin和UC San Diego的联合研究团队开发的一种先进的人形机器人全身控...
DreamVideo-2:通过单张图片和边界框序列精确生成视频
DreamVideo-2简介 DreamVideo-2是由复旦大学、阿里巴巴集团、南洋理工大学和密歇根州立大学的研究团队共同开发的一种先进的零样本视频定制框架。该框架能够通...
PromptFix:能够根据用户的文本指令执行广泛的图像处理任务
PromptFix简介 PromptFix是由罗切斯特大学与微软研究院联合开发的一项创新图像处理框架。该框架通过结合扩散模型和语言模型,能够根据用户的文本指令执行广泛...