2.应用工具相关
MoMask:新型的文本驱动3D人类动作生成框架
MoMask简介 MoMask是一种新型的文本驱动3D人类动作生成框架,通过层次化的量化方案和双向变换器实现高质量的动作合成。它采用残差量化技术将动作分解为多层离...
UltraMem:字节豆包大模型团队推出的超稀疏记忆网络架构
UltraMem简介 UltraMem是由字节跳动豆包大模型团队开发的一种新型超稀疏记忆网络架构。它通过引入大规模超稀疏记忆层,显著降低了Transformer模型在推理过程...
HUGWBC:上海交通大学等推出的人形机器人全身控制器
HUGWBC简介 HUGWBC是由上海交通大学和上海人工智能实验室联合开发的人形机器人全身控制器。该控制器旨在实现人形机器人的精细运动控制和多功能性,通过扩展的...
PDF to Podcast:将PDF文档高效转换为音频内容
PDF to Podcast简介 “PDF to Podcast”是由NVIDIA AI Blueprint团队开发的一项创新应用,旨在将PDF文档高效转换为音频内容,生成引人入胜的播客。它基于NVIDIA...
InternVideo2.5:南京大学等推出的新型视频多模态大模型
InternVideo2.5简介 InternVideo2.5是由上海人工智能实验室、南京大学和中国科学院深圳先进技术研究院联合开发的新型视频多模态大模型。该模型专注于通过长且...
Lumina-Video:支持文本到视频以及文本到视频+音频的生成
Lumina-Video简介 Lumina-Video 是由 Alpha-VLLM 团队开发的一个专注于视频生成的开源项目。它旨在通过文本提示生成高质量的视频内容,支持文本到视频以及文...
Satori:麻省理工学院等高校推出的大型语言模型
Satori简介 Satori是由麻省理工学院、新加坡科技与设计大学、哈佛大学、IBM研究实验室以及马萨诸塞大学阿默斯特分校的研究团队共同开发的一种新型大型语言模...
Goku:香港大学联合字节推出的图像和视频生成模型
Goku简介 Goku是由香港大学和字节跳动公司联合开发的先进图像和视频生成模型。它利用改进的流(rectified flow)Transformer架构,通过精心设计的数据处理流...
LLaVA-Med:微软推出的生物医学领域的大型语言和视觉助手
LLaVA-Med简介 LLaVA-Med是由微软推出的一款针对生物医学领域的大型语言和视觉助手。该团队通过创新的方法,利用PubMed Central的海量生物医学图像-标题数据...
InspireMusic:阿里通义实验室推出的开源音乐生成框架
InspireMusic简介 InspireMusic 是由阿里巴巴通义实验室开发的开源音乐生成框架,旨在通过人工智能技术赋能音乐创作。它基于自回归 Transformer 和音频标...