2.应用工具相关
X-Dancer:从单张静态图像生成与音乐同步的全身舞蹈视频
X-Dancer简介 X-Dancer是由字节联合加州大学圣地亚哥分校和南加州大学推出的创新框架,旨在从单张静态图像生成与音乐同步的全身舞蹈视频。该框架结合了自回归...
Kiss3DGen:香港科技大学等推出的3D生成框架
Kiss3DGen简介 Kiss3DGen是由香港科技大学(广州)和香港科技大学的研究团队联合广州趣丸网络科技有限公司共同开发的一种高效3D生成框架。该框架通过将预训练...
AVD2:增强自动驾驶系统对复杂交通事故场景的理解能力
AVD2简介 AVD2(Accident Video Diffusion for Accident Video Description)是由清华大学人工智能产业研究院(AIR)联合香港科技大学、吉林大学、南京理工大...
TheoremExplainAgent:将复杂的定理和概念转化为易于理解的视频内容
TheoremExplainAgent简介 TheoremExplainAgent是由加拿大滑铁卢大学、Votee AI以及Vector Institute联合开发的多模态定理解释系统。该系统通过结合文本和视觉...
DiffBrush:北京邮电大学等推出的图像生成与编辑框架
DiffBrush简介 DiffBrush是由北京邮电大学、清华大学、中国电信人工智能研究所和西北工业大学的研究团队共同开发的一种创新的图像生成与编辑框架。它基于预训...
TrendPublish:通过智能化手段简化内容创作与分发流程
TrendPublish简介 TrendPublish 是一个基于 AI 的趋势发现和内容发布系统,旨在通过智能化手段简化内容创作与分发流程。它支持多源数据采集,可从 Twitter/X...
DREAM ENGINE:根据语言描述和多张参考图像生成高质量的图像
DREAM ENGINE简介 DREAM ENGINE是由北京大学、阿里巴巴集团、华盛顿大学、北京理工大学和Binance Labs联合开发的创新图像生成框架。该框架通过结合大型多模态...
ART:能够直接生成具有多个透明图层的图像
ART简介 Anonymous Region Transformer(ART)是由微软亚洲研究院、清华大学、北京大学和中国科学技术大学的研究团队共同开发的一种创新的多层透明图像生成方...
ViDoRAG:专门用于处理视觉丰富文档中的复杂推理任务
ViDoRAG简介 ViDoRAG(Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents)是一种新型的检索增强生成框架,专门用于...
SpeciesNet:识别相机拍摄的图像中的动物物种
SpeciesNet 简介 SpeciesNet 是由谷歌团队开发的一款专门用于识别野生动物相机拍摄的图像中的动物物种人工智能模型,它结合了目标检测和图像分类技术,能够从...