博客 | 第 79 页 | 柒柒AI导航

DynamicControl：腾讯等推出的多条件自适应文本到图像生成框架

DynamicControl简介 DynamicControl是由腾讯联合南洋理工、浙大等研究机构推出的一种创新框架，旨在提升文本到图像生成任务中的条件控制能力。该框架通过动态...

2-2.应用工具图像

7个月前

The Language of Motion简介 'The Language of Motion'是由斯坦福大学李飞飞团队开发的一项创新研究，旨在通过一个多模态语言模型框架来统一和理解人类的口头...

3-5.多模态模型

7个月前

MotiF简介 MotiF（Motion Focal Loss）是由布朗大学与Meta的GenAI团队联合开发的一种创新方法，旨在提升文本图像到视频（TI2V）生成任务中的文本对齐和运动生...

2-3.应用工具视频

7个月前

Infinity简介 Infinity是由字节跳动公司开发的一种先进的比特视觉自回归模型，它能够根据语言指令生成高分辨率、逼真的图像。该模型通过采用无限词汇量的标记...

2-2.应用工具图像

7个月前

3DHM简介 3DHM是由加州大学伯克利分校的研究团队开发的一种创新的基于扩散模型的框架，它能够利用单张图片和目标3D动作序列来动画化人物。这种方法通过学习人...

2-6.应用工具3D

7个月前

FinRobot简介 FinRobot是一个创新的开源AI Agent平台，专为金融应用设计，以大型语言模型（LLMs）为核心，提供金融专业分析工具。该平台通过其四层架构——金融...

2-5.应用工具其他

7个月前

DepthLab简介 DepthLab是由香港大学、香港科技大学、蚂蚁集团、阿尔托大学和同一实验室联合开发的一款先进的深度修复模型。该模型专门设计用于从单一图像中生...

2-6.应用工具3D

7个月前

PartGen简介 PartGen是一种创新的3D对象生成和重建框架，它能够从文本、图像或现有的未结构化3D对象中生成由有意义部件组成的3D对象。通过使用多视图扩散模型...

2-6.应用工具3D

7个月前

DiTCtrl简介 DiTCtrl是一种基于多模态扩散变换器（MM-DiT）架构的免调优多提示视频生成方法。它通过分析MM-DiT的注意力机制，实现了跨不同提示的精确语义控制...

2-3.应用工具视频

7个月前

VideoVAEPlus简介 VideoVAEPlus是一种视频变分自编码器，专门设计用于高保真度视频编码和压缩，尤其擅长处理大运动场景。它通过时间感知的空间压缩和轻量级运...

2-3.应用工具视频

7个月前