博客 | 第 72 页 | 柒柒AI导航

ArtCrafter：能够将参考图像的风格特征迁移到生成图像中

ArtCrafter简介 ArtCrafter是由清华大学、鹏城实验室和联想研究院联合开发的一款创新的文本到图像风格迁移框架。该框架通过嵌入重框架架构，整合了基于注意力...

2-2.应用工具图像

6个月前

Ingredients简介 Ingredients是一种基于视频扩散Transformer的多ID视频定制化框架，旨在将多个特定身份照片与视频内容相结合，生成具有高度个性化和身份一致...

2-3.应用工具视频

6个月前

MultiBooth简介 MultiBooth是由清华大学深圳国际研究生院、Meta Platforms Inc.、香港科技大学和杜克大学联合开发的一项创新技术，旨在解决多概念文本到图像...

2-2.应用工具图像

6个月前

TransPixar简介 TransPixar是由香港科技大学（广州）和Adobe联合开发的一种先进的文本到视频生成方法，旨在通过引入透明度信息生成RGBA视频。该方法基于扩散...

2-3.应用工具视频

6个月前

KAG简介 KAG（Knowledge Augmented Generation）是由蚂蚁集团开发的专业领域知识服务框架。它旨在通过结合知识图谱（KG）和检索增强生成（RAG）技术的优势，...

2-5.应用工具其他

6个月前

CHRONOS简介 CHRONOS是由阿里巴巴通义实验室联合上海交通大学共同开发的一款创新的时间线摘要生成框架。它通过迭代自问自答的方式，利用大型语言模型（LLM）...

2-5.应用工具其他

6个月前

Mobile-Agent简介 Mobile-Agent是一种自主多模态移动设备代理，基于多模态大型语言模型（MLLM）开发，具备强大的视觉感知能力。它通过视觉感知模块，仅使用移...

2-5.应用工具其他

6个月前

Video-RAG简介 Video-RAG是一种创新的无需训练且成本效益高的视频理解流程，旨在解决大型视频-语言模型（LVLMs）在理解长视频时因上下文有限而遇到的挑战。该...

2-3.应用工具视频

6个月前

Cosmos简介英伟达推出的Cosmos平台是一个创新的生成式世界基础模型（WFM），旨在加速物理人工智能（AI）系统的开发，特别是在自动驾驶和机器人领域。通过提...

2-5.应用工具其他

6个月前

VITA-1.5简介 VITA-1.5 是一款开源的多模态大型语言模型，旨在实现视频、图像、文本和音频模态的无缝融合与交互。基于 Mixtral 8×7B 语言模型，VITA-1.5 通过...

3-5.多模态模型

6个月前