2.应用工具相关
GenXD:新加坡国立大学&微软推出的多视角3D和4D场景生成模型
GenXD简介 GenXD是由新加坡国立大学和微软公司的研究团队联合开发的一个统一模型,它能够从任意数量的条件图像中高效生成高质量的3D和4D场景。该模型利用日常...
AlphaFold 3:极大地提高了生物分子复合体结构预测的准确性
AlphaFold 3简介 AlphaFold 3是由Google DeepMind推出的一款人工智能模型,它极大地提高了生物分子复合体结构预测的准确性。该模型采用了扩散架构,能够预测...
URAvatar:能够从单台手机扫描中创建具有真实感的头部化身
URAvatar简介 URAvatar是由Meta开发的一种创新技术,它允许从单台手机扫描创建高度逼真的可重光照头部化身。这些化身能够在各种光照环境中实时动画和重光照,...
LucidFusion:从单张或多张未定位的2D图像生成高分辨率的3D对象
LucidFusion简介 LucidFusion是由香港科技大学推出的一种先进的3D内容生成技术。这项技术能够从任意未定位的多视图图像中生成高分辨率的3D高斯,通过利用相对...
Fashion-VDM:谷歌联合华盛顿大学推出的视频虚拟试穿技术
Fashion-VDM简介 Fashion-VDM是由Google Research和华盛顿大学的研究团队共同开发的一种先进的视频扩散模型,用于虚拟试穿技术。该模型能够将给定的服装图像...
AdaCache:提高视频扩散变换器在生成视频时的推理速度
AdaCache简介 AdaCache是由Meta AI和石溪大学联合开发的一种创新方法,旨在加速视频扩散变换器(DiTs)的视频生成过程。这种方法无需额外训练,通过智能缓存...
Docling:IBM推出的开源PDF文档转换工具
Docling简介 Docling是一个开源的PDF文档转换工具,由IBM Research开发,提供易于使用的接口和自包含的解决方案。它利用先进的AI模型进行布局分析和表格结构...
WEBRL:清华与智谱AI联合推出的自进化在线课程强化学习框架
WEBRL简介 WEBRL是由清华大学与智谱AI联合开发的自进化在线课程强化学习框架,旨在训练基于大型开放语言模型的高性能网络代理。通过解决训练任务稀缺、反馈信...
Ichigo:一款开源的实时混合模态语音助手
Ichigo简介 Ichigo是一个混合模态实时语音助手,能够无缝处理语音和文本的交织序列。它采用标记化早期融合方法,将语音量化为离散标记,并利用统一的变换器架...
MotionCLR:根据文本提示生成相应的人体运动
MotionCLR简介 MotionCLR是一种基于注意力机制的运动扩散模型,它能够理解和建模文本与运动之间的细粒度对应关系,实现无需训练的交互式运动生成和编辑。通过...