AI开源项目

LucidFusion:从单张或多张未定位的2D图像生成高分辨率的3D对象

LucidFusion简介 LucidFusion是由香港科技大学推出的一种先进的3D内容生成技术。这项技术能够从任意未定位的多视图图像中生成高分辨率的3D高斯,通过利用相对...

Fashion-VDM:谷歌联合华盛顿大学推出的视频虚拟试穿技术

Fashion-VDM简介 Fashion-VDM是由Google Research和华盛顿大学的研究团队共同开发的一种先进的视频扩散模型,用于虚拟试穿技术。该模型能够将给定的服装图像...

AdaCache:提高视频扩散变换器在生成视频时的推理速度

AdaCache简介 AdaCache是由Meta AI和石溪大学联合开发的一种创新方法,旨在加速视频扩散变换器(DiTs)的视频生成过程。这种方法无需额外训练,通过智能缓存...

IC-LoRA:阿里通义团队推出的一种创新图像生成框架

IC-LoRA简介 IC-LoRA(In-Context LoRA)是由阿里通义团队推出的一种创新图像生成框架,旨在通过简化的流程和最小的调整,激活扩散变换器(DiTs)的内在上下...

Docling:IBM推出的开源PDF文档转换工具

Docling简介 Docling是一个开源的PDF文档转换工具,由IBM Research开发,提供易于使用的接口和自包含的解决方案。它利用先进的AI模型进行布局分析和表格结构...

WEBRL:清华与智谱AI联合推出的自进化在线课程强化学习框架

WEBRL简介 WEBRL是由清华大学与智谱AI联合开发的自进化在线课程强化学习框架,旨在训练基于大型开放语言模型的高性能网络代理。通过解决训练任务稀缺、反馈信...

JanusFlow:DeepSeek推出的多模态统一框架

JanusFlow简介 JanusFlow是由DeepSeek-AI、北京大学、香港大学和清华大学的研究团队联合开发的一个多模态框架,它通过整合自回归语言模型和修正流技术,实现...

GameGen-X:首个开放世界游戏视频生成与交互控制模型

GameGen-X简介 GameGen-X 是由香港科技大学、中国科学技术大学和中国科学院合肥物质科学研究院联合开发的一款先进的扩散变换模型,它专门设计用于生成和交互...

Ichigo:一款开源的实时混合模态语音助手

Ichigo简介 Ichigo是一个混合模态实时语音助手,能够无缝处理语音和文本的交织序列。它采用标记化早期融合方法,将语音量化为离散标记,并利用统一的变换器架...

MotionCLR:根据文本提示生成相应的人体运动

MotionCLR简介 MotionCLR是一种基于注意力机制的运动扩散模型,它能够理解和建模文本与运动之间的细粒度对应关系,实现无需训练的交互式运动生成和编辑。通过...
1 16 17 18 19 20 47