ArtCrafter:能够将参考图像的风格特征迁移到生成图像中

ArtCrafter简介 ArtCrafter是由清华大学、鹏城实验室和联想研究院联合开发的一款创新的文本到图像风格迁移框架。该框架通过嵌入重框架架构,整合了基于注意力...

Ingredients:多ID视频定制化框架

Ingredients简介 Ingredients是一种基于视频扩散Transformer的多ID视频定制化框架,旨在将多个特定身份照片与视频内容相结合,生成具有高度个性化和身份一致...

MultiBooth:能够根据包含多个概念的文本提示生成相应的图像

MultiBooth简介 MultiBooth是由清华大学深圳国际研究生院、Meta Platforms Inc.、香港科技大学和杜克大学联合开发的一项创新技术,旨在解决多概念文本到图像...

TransPixar:通过文本描述生成背景透明的视频

TransPixar简介 TransPixar是由香港科技大学(广州)和Adobe联合开发的一种先进的文本到视频生成方法,旨在通过引入透明度信息生成RGBA视频。该方法基于扩散...

KAG:蚂蚁集团推出的专业领域知识服务框架

KAG简介 KAG(Knowledge Augmented Generation)是由蚂蚁集团开发的专业领域知识服务框架。它旨在通过结合知识图谱(KG)和检索增强生成(RAG)技术的优势,...

CHRONOS:阿里通义联合上海交通大学推出的时间线摘要生成框架

CHRONOS简介 CHRONOS是由阿里巴巴通义实验室联合上海交通大学共同开发的一款创新的时间线摘要生成框架。它通过迭代自问自答的方式,利用大型语言模型(LLM)...

Mobile-Agent:能够准确定位移动设备屏幕上的视觉和文本元素

Mobile-Agent简介 Mobile-Agent是一种自主多模态移动设备代理,基于多模态大型语言模型(MLLM)开发,具备强大的视觉感知能力。它通过视觉感知模块,仅使用移...

Video-RAG:助力视频语言模型更好地理解和处理长视频内容

Video-RAG简介 Video-RAG是一种创新的无需训练且成本效益高的视频理解流程,旨在解决大型视频-语言模型(LVLMs)在理解长视频时因上下文有限而遇到的挑战。该...

Cosmos:英伟达/NVIDIA推出的生成式世界基础模型平台

Cosmos简介 英伟达推出的Cosmos平台是一个创新的生成式世界基础模型(WFM),旨在加速物理人工智能(AI)系统的开发,特别是在自动驾驶和机器人领域。通过提...

VITA-1.5:实现视频、图像、文本和音频模态的无缝融合与交互

VITA-1.5简介 VITA-1.5 是一款开源的多模态大型语言模型,旨在实现视频、图像、文本和音频模态的无缝融合与交互。基于 Mixtral 8×7B 语言模型,VITA-1.5 通过...
1 70 71 72 73 74 217