AI项目库
UniDisc:卡内基梅隆大学推出的多模态生成模型
UniDisc简介 UniDisc(Unified Multimodal Discrete Diffusion)是由卡内基梅隆大学团队提出的一种新型多模态生成模型。它基于离散扩散模型框架,能够同时理...
AnimeGamer:腾讯联合港城大推出的无限动漫生活模拟系统
AnimeGamer简介 AnimeGamer是由腾讯PCG ARC实验室和香港城市大学联合开发的无限动漫生活模拟系统。该系统基于多模态大语言模型(MLLM),允许玩家通过开放式...
Krillin AI:支持音视频翻译、配音和语音克隆
Krillin AI 简介 Krillin AI 是一款开源的全能型音视频本地化与增强工具。它支持音视频翻译、配音和语音克隆,能够一键启动,自动安装依赖,无需复杂配置。它...
VoiceCanvas:开源的文本转语音系统
VoiceCanvas简介 VoiceCanvas 是一款开源的文本转语音系统,支持超过 50 种语言和多种音色选择,还具备声音克隆功能。它集成多种语音服务,如 OpenAI TTS、AW...
BabelDOC:开源的 PDF 科学论文翻译工具
BabelDOC 简介 BabelDOC 是一个开源的 PDF 科学论文翻译工具,旨在帮助用户高效翻译和对比学术文档。它提供在线服务和自部署选项,支持沉浸式翻译,每月免费...
Llama 4:Meta 开源的多模态 AI 模型
Llama 4 简介 Llama 4是由Meta开发的开源多模态AI模型系列。该系列包括Scout、Maverick和Behemoth三个版本。其中,Scout拥有170亿活跃参数和16个专家,总参数...
OmniTalker:阿里推出的实时文本驱动的说话头像生成框架
OmniTalker简介 OmniTalker是由阿里巴巴集团通义实验室开发的一款实时文本驱动的说话头像生成框架。它通过创新的双分支扩散变换器架构和跨模态注意力机制,能...
Mini DALL·E 3:清华大学等推出的交互式文本到图像生成模型
Mini DALL·E 3简介 Mini DALL·E 3是由北京理工大学、上海人工智能实验室、清华大学和香港中文大学联合开发的交互式文本到图像生成模型。它通过自然语言与用户...
Lumina-mGPT 2.0:一款开源的自回归图像模型
Lumina-mGPT 2.0 简介 Lumina-mGPT 2.0 是一款独立的自回归图像生成模型。它从零开始训练,能够统一多种图像生成任务,包括文本到图像生成、图像对生成、主体...
DreamActor-M1:字节跳动推出的人类图像动画框架
DreamActor-M1简介 DreamActor-M1是由字节跳动智能创作团队开发的一款人类图像动画框架。该框架基于扩散变换器(DiT),通过混合引导信号实现了整体性、表现...