AI开源项目 | 第 18 页

LucidFusion：从单张或多张未定位的2D图像生成高分辨率的3D对象

LucidFusion简介 LucidFusion是由香港科技大学推出的一种先进的3D内容生成技术。这项技术能够从任意未定位的多视图图像中生成高分辨率的3D高斯，通过利用相对...

2-6.应用工具3D

2个月前

Fashion-VDM简介 Fashion-VDM是由Google Research和华盛顿大学的研究团队共同开发的一种先进的视频扩散模型，用于虚拟试穿技术。该模型能够将给定的服装图像...

2-3.应用工具视频

2个月前

AdaCache简介 AdaCache是由Meta AI和石溪大学联合开发的一种创新方法，旨在加速视频扩散变换器（DiTs）的视频生成过程。这种方法无需额外训练，通过智能缓存...

2-3.应用工具视频

2个月前

IC-LoRA简介 IC-LoRA（In-Context LoRA）是由阿里通义团队推出的一种创新图像生成框架，旨在通过简化的流程和最小的调整，激活扩散变换器（DiTs）的内在上下...

3-2.图片生成模型

2个月前

Docling简介 Docling是一个开源的PDF文档转换工具，由IBM Research开发，提供易于使用的接口和自包含的解决方案。它利用先进的AI模型进行布局分析和表格结构...

2-5.应用工具其他

2个月前

WEBRL简介 WEBRL是由清华大学与智谱AI联合开发的自进化在线课程强化学习框架，旨在训练基于大型开放语言模型的高性能网络代理。通过解决训练任务稀缺、反馈信...

2-5.应用工具其他

2个月前

JanusFlow简介 JanusFlow是由DeepSeek-AI、北京大学、香港大学和清华大学的研究团队联合开发的一个多模态框架，它通过整合自回归语言模型和修正流技术，实现...

3-2.图片生成模型

2个月前

GameGen-X简介 GameGen-X 是由香港科技大学、中国科学技术大学和中国科学院合肥物质科学研究院联合开发的一款先进的扩散变换模型，它专门设计用于生成和交互...

2-5.应用工具其他

2个月前

Ichigo简介 Ichigo是一个混合模态实时语音助手，能够无缝处理语音和文本的交织序列。它采用标记化早期融合方法，将语音量化为离散标记，并利用统一的变换器架...

2-4.应用工具音频

2个月前

MotionCLR简介 MotionCLR是一种基于注意力机制的运动扩散模型，它能够理解和建模文本与运动之间的细粒度对应关系，实现无需训练的交互式运动生成和编辑。通过...

2-3.应用工具视频

2个月前