DynamicControl:腾讯等推出的多条件自适应文本到图像生成框架
DynamicControl简介 DynamicControl是由腾讯联合南洋理工、浙大等研究机构推出的一种创新框架,旨在提升文本到图像生成任务中的条件控制能力。该框架通过动态...
The Language of Motion:李飞飞团队推出的多模态语言模型
The Language of Motion简介 'The Language of Motion'是由斯坦福大学李飞飞团队开发的一项创新研究,旨在通过一个多模态语言模型框架来统一和理解人类的口头...
MotiF:增强视频生成中的动作和运动的准确性
MotiF简介 MotiF(Motion Focal Loss)是由布朗大学与Meta的GenAI团队联合开发的一种创新方法,旨在提升文本图像到视频(TI2V)生成任务中的文本对齐和运动生...
Infinity:字节跳动推出的高分辨率图像合成模型
Infinity简介 Infinity是由字节跳动公司开发的一种先进的比特视觉自回归模型,它能够根据语言指令生成高分辨率、逼真的图像。该模型通过采用无限词汇量的标记...
3DHM:用单张图片和目标3D动作序列来动画化人物
3DHM简介 3DHM是由加州大学伯克利分校的研究团队开发的一种创新的基于扩散模型的框架,它能够利用单张图片和目标3D动作序列来动画化人物。这种方法通过学习人...
FinRobot:专为金融应用设计的开源A Agent平台
FinRobot简介 FinRobot是一个创新的开源AI Agent平台,专为金融应用设计,以大型语言模型(LLMs)为核心,提供金融专业分析工具。该平台通过其四层架构——金融...
DepthLab:专门设计用于从单一图像中生成完整的3D场景
DepthLab简介 DepthLab是由香港大学、香港科技大学、蚂蚁集团、阿尔托大学和同一实验室联合开发的一款先进的深度修复模型。该模型专门设计用于从单一图像中生...
PartGen:多视角扩散模型驱动的3D部件生成与重建
PartGen简介 PartGen是一种创新的3D对象生成和重建框架,它能够从文本、图像或现有的未结构化3D对象中生成由有意义部件组成的3D对象。通过使用多视图扩散模型...
DiTCtrl:实现无需调整的多提示长视频生成
DiTCtrl简介 DiTCtrl是一种基于多模态扩散变换器(MM-DiT)架构的免调优多提示视频生成方法。它通过分析MM-DiT的注意力机制,实现了跨不同提示的精确语义控制...
VideoVAEPlus:专门设计用于高保真度视频编码和压缩
VideoVAEPlus简介 VideoVAEPlus是一种视频变分自编码器,专门设计用于高保真度视频编码和压缩,尤其擅长处理大运动场景。它通过时间感知的空间压缩和轻量级运...