2.应用工具相关
WebSSL:Meta联合纽约大学等推出的自监督学习系列模型
WebSSL项目简介 WebSSL(Web-scale Self-Supervised Learning)是Meta联合纽约大学等机构推出的视觉自监督学习(SSL)系列模型,,旨在通过大规模无监督学习...
Paper2Code:将机器学习领域的论文自动转换为可执行的代码库
Paper2Code项目简介 Paper2Code是由韩国科学技术院(KAIST)和DeepAuto.ai联合开发的创新框架,旨在将机器学习领域的研究论文自动转换为可执行的代码库。该框...
EmaFusion:Ema 推出的多模型融合技术
EmaFusion项目简介 EmaFusion是由Ema推出的多模型融合技术,旨在无缝选择和集成大型语言模型(LLMs),以提高性能并降低成本。该系统通过结合基于分类的路由...
Concept Lancet:宾夕法尼亚大学推出的新型图像编辑框架
Concept Lancet项目简介 Concept Lancet(CoLan)是由宾夕法尼亚大学的研究团队开发的一种新型图像编辑框架,旨在通过精确的表示操作改善基于扩散模型的图像...
Ev-DeblurVSR:中科大等推出的新型事件增强型网络
Ev-DeblurVSR项目简介 Ev-DeblurVSR是由中国科学技术大学脑智感知与认知教育部重点实验室、合肥综合性国家科学中心人工智能研究所以及新加坡国立大学的研究团...
OpenMath-Nemotron:NVIDIA推出的数学推理模型
OpenMath-Nemotron项目简介 OpenMath-Nemotron是由NVIDIA团队开发的一系列先进的数学推理模型,专为解决复杂数学问题而设计。这些模型基于大规模数据集OpenMa...
Vidi:字节推出的专注于视频理解和编辑的多模态模型
Vidi项目简介 Vidi是由字节跳动公司智能创作团队开发的大型多模态模型,专注于视频理解和编辑(VUE)。它通过处理视觉、音频和文本等多种模态输入,实现对长...
Phantom-Wan:字节跳动推出的视频生成框架
Phantom-Wan项目简介 Phantom-Wan是由字节跳动开发的视频生成框架,专注于从参考图像中提取主题元素并根据文本指令生成主题一致的视频。它通过跨模态对齐技术...
LAM:从单张图像中重建出一个可动画化的高斯头像
LAM项目简介 LAM(Large Avatar Model)是由阿里巴巴集团通义实验室开发的一种创新的高斯头像生成技术,它可以从单张图像生成可动画化的高斯头像。LAM的核心...
Eagle 2.5:NVIDIA推出的视觉-语言模型
Eagle 2.5项目简介 Eagle 2.5是由NVIDIA开发的前沿视觉-语言模型系列,专注于长文本多模态学习。该模型旨在解决长视频理解和高分辨率图像理解中的挑战,通过...