2-4.应用工具音频
TANGOFLUX:英伟达联合新加坡科大推出的文本到音频生成模型
TANGOFLUX简介 TANGOFLUX是由新加坡科技设计大学和NVIDIA共同开发的文本到音频生成模型,拥有约5.15亿参数,能够在3.7秒内生成长达30秒的44.1kHz音频。该模型...
Sketch2Sound:能够根据声音模仿(如口头模仿)生成声音
Sketch2Sound简介 Sketch2Sound是一个音频生成模型,它能够通过理解和响应时间变化的控制信号(如响度、亮度和音高)以及文本提示,从声音模仿中合成高质量的...
CosyVoice 2:阿里推出的先进流式语音合成模型
CosyVoice 2简介 CosyVoice 2是由阿里巴巴集团开发的先进流式语音合成模型,它通过整合大型语言模型,实现了在流式模式下人类水平的自然度和几乎无损的合成质...
Freestyler:能够直接从歌词和伴奏输入生成说唱声乐
Freestyler简介 Freestyler是由中国西北工业大学音频、语音与语言处理小组(ASLP@NPU)与微软中国合作开发的一款创新系统,它能够直接从歌词和伴奏输入生成说...
MultiFoley:Adobe&密歇根大学推出的音效生成模型
MultiFoley简介 MultiFoley是由密歇根大学和Adobe Research的联合研究团队开发的一款先进的视频引导Foley音效生成模型,它通过结合文本、音频和视频的多模态...
MuCodec:清华&腾讯等联合推出的超低比特率音乐编解码器
MuCodec简介 MuCodec是由清华大学深圳国际研究生院和腾讯AI实验室联合开发的一种超低比特率音乐编解码器。它专门针对音乐压缩和重建任务,通过提取声学和语义...
Ichigo:一款开源的实时混合模态语音助手
Ichigo简介 Ichigo是一个混合模态实时语音助手,能够无缝处理语音和文本的交织序列。它采用标记化早期融合方法,将语音量化为离散标记,并利用统一的变换器架...
Amphion:一个开源的工具包,专注于音频、音乐和语音生成领域
Amphion简介 Amphion是一个开源的工具包,专注于音频、音乐和语音生成领域,旨在降低初学者和工程师进入这些领域的门槛。它提供了一个统一的框架,支持多种生...
NotebookLlama:Meta推出的将 PDF 文档转换成播客内容的开源项目
NotebookLlama简介 NotebookLlama 是 Meta 推出的开源项目,利用 LLaMa 模型将 PDF 文档转换成播客内容。它通过自动化流程进行 PDF 预处理、生成播客脚本、增...
Whispo:通过简单的按键操作 快速将语音内容转化为文本
Whispo简介 Whispo是一款基于人工智能的语音转录工具,利用先进的Whisper技术将语音实时转换为文本。它支持多种平台,用户只需按住Ctrl键开始录音,释放后即...