Ev-DeblurVSR:中科大等推出的新型事件增强型网络

Ev-DeblurVSR项目简介 Ev-DeblurVSR是由中国科学技术大学脑智感知与认知教育部重点实验室、合肥综合性国家科学中心人工智能研究所以及新加坡国立大学的研究团...

OpenMath-Nemotron:NVIDIA推出的数学推理模型

OpenMath-Nemotron项目简介 OpenMath-Nemotron是由NVIDIA团队开发的一系列先进的数学推理模型,专为解决复杂数学问题而设计。这些模型基于大规模数据集OpenMa...

Step1X-Edit:阶跃星辰开源的图像编辑模型

Step1X-Edit项目简介 Step1X-Edit是由阶跃星辰开源的图像编辑模型,旨在缩小开源与闭源图像编辑模型之间的性能差距。该模型结合了多媒体大型语言模型(MLLM)...

RealisDance-DiT:阿里等推出的新型可控角色动画生成技术

RealisDance-DiT项目简介 RealisDance-DiT 是由阿里巴巴集团 DAMO Academy、浙江大学、湖畔实验室、南方科技大学和深圳大学联合开发的一种新型可控角色动画生...

RAGEN:用于训练和评估大型语言模型(LLMs)

RAGEN项目简介 RAGEN是由西北大学、华盛顿大学、斯坦福大学、微软、纽约大学、新加坡管理大学和帝国理工学院等多所知名高校和机构的研究团队共同开发的模块化...

Vidi:字节推出的专注于视频理解和编辑的多模态模型

Vidi项目简介 Vidi是由字节跳动公司智能创作团队开发的大型多模态模型,专注于视频理解和编辑(VUE)。它通过处理视觉、音频和文本等多种模态输入,实现对长...

LiveCC:新加坡国立大学联合字节推出的视频大语言模型

LiveCC项目简介 LiveCC是由新加坡国立大学Show Lab和字节跳动联合开发的新型视频大语言模型(Video LLM)。该模型通过大规模的流式语音转录(ASR)数据进行训...

Phantom-Wan:字节跳动推出的视频生成框架

Phantom-Wan项目简介 Phantom-Wan是由字节跳动开发的视频生成框架,专注于从参考图像中提取主题元素并根据文本指令生成主题一致的视频。它通过跨模态对齐技术...

LAM:从单张图像中重建出一个可动画化的高斯头像

LAM项目简介 LAM(Large Avatar Model)是由阿里巴巴集团通义实验室开发的一种创新的高斯头像生成技术,它可以从单张图像生成可动画化的高斯头像。LAM的核心...

Eagle 2.5:NVIDIA推出的视觉-语言模型

Eagle 2.5项目简介 Eagle 2.5是由NVIDIA开发的前沿视觉-语言模型系列,专注于长文本多模态学习。该模型旨在解决长视频理解和高分辨率图像理解中的挑战,通过...
1 2 3 213