AI开源项目
Vidi:字节推出的专注于视频理解和编辑的多模态模型
Vidi项目简介 Vidi是由字节跳动公司智能创作团队开发的大型多模态模型,专注于视频理解和编辑(VUE)。它通过处理视觉、音频和文本等多种模态输入,实现对长...
LiveCC:新加坡国立大学联合字节推出的视频大语言模型
LiveCC项目简介 LiveCC是由新加坡国立大学Show Lab和字节跳动联合开发的新型视频大语言模型(Video LLM)。该模型通过大规模的流式语音转录(ASR)数据进行训...
Phantom-Wan:字节跳动推出的视频生成框架
Phantom-Wan项目简介 Phantom-Wan是由字节跳动开发的视频生成框架,专注于从参考图像中提取主题元素并根据文本指令生成主题一致的视频。它通过跨模态对齐技术...
LAM:从单张图像中重建出一个可动画化的高斯头像
LAM项目简介 LAM(Large Avatar Model)是由阿里巴巴集团通义实验室开发的一种创新的高斯头像生成技术,它可以从单张图像生成可动画化的高斯头像。LAM的核心...
Eagle 2.5:NVIDIA推出的视觉-语言模型
Eagle 2.5项目简介 Eagle 2.5是由NVIDIA开发的前沿视觉-语言模型系列,专注于长文本多模态学习。该模型旨在解决长视频理解和高分辨率图像理解中的挑战,通过...
Skywork R1V2:Skywork AI推出的多模态推理模型
Skywork R1V2项目简介 Skywork R1V2是由Skywork AI团队开发的下一代多模态推理模型。该模型在前代Skywork R1V的基础上进行了重大改进,引入了混合强化学习范...
WriteHERE:AI长文写作框架 生成高质量长文本内容
WriteHERE项目简介 WriteHERE是Jürgen Schmidhuber开源的AI长文写作框架。。它通过异构递归规划框架,将检索、推理和写作三种任务类型动态整合,实现类似人类...
UFO²:微软推出的Windows桌面的多智能体操作系统
UFO²项目简介 UFO² 是由微软公司联合浙江大学伊利诺伊大学厄巴纳香槟校区联合学院、南京大学、北京大学等高校的研究团队共同开发的一款面向Windows桌面的多智...
SocioVerse:复旦大学联合小红书等机构开发的社交模拟框架
SocioVerse项目简介 SocioVerse 是由复旦大学、上海创新研究所、罗切斯特大学、印第安纳大学和小红书公司联合开发的社交模拟框架。它通过大型语言模型(LLM)...
SimpleAR:复旦大学联合字节推出的图像生成模型
SimpleAR项目简介 SimpleAR是由复旦大学和字节跳动团队共同开发的一种自回归视觉生成框架。该框架通过预训练、监督微调和强化学习等优化手段,在仅使用0.5亿...