2-4.应用工具音频
TIGER:清华大学等推出的新型轻量级语音分离模型
TIGER简介 TIGER(Time-frequency Interleaved Gain Extraction and Reconstruction network)是由清华大学计算机系、清华-IDG/麦戈文脑科学研究院以及北京脑...
PDF to Podcast:将PDF文档高效转换为音频内容
PDF to Podcast简介 “PDF to Podcast”是由NVIDIA AI Blueprint团队开发的一项创新应用,旨在将PDF文档高效转换为音频内容,生成引人入胜的播客。它基于NVIDIA...
InspireMusic:阿里通义实验室推出的开源音乐生成框架
InspireMusic简介 InspireMusic 是由阿里巴巴通义实验室开发的开源音乐生成框架,旨在通过人工智能技术赋能音乐创作。它基于自回归 Transformer 和音频标...
Zonos-v0.1:Zyphra推出的文本转语音模型
Zonos-v0.1简介 Zonos-v0.1是由Zyphra团队开发的文本到语音(TTS)模型,于2025年2月10日发布。它包含两个1.6B参数的模型:一个Transformer模型和一个SSM混合...
FireRedASR:小红书开源的普通话自动语音识别模型
FireRedASR简介 FireRedASR是由小红书开源的普通话自动语音识别(ASR)模型系列,旨在满足不同应用场景对性能和效率的需求。该模型家族包含两个变体:FireRed...
XMusic:腾讯推出的通用化且可控的符号音乐生成框架
XMusic简介 XMusic是由腾讯公司开发的一个通用化且可控的符号音乐生成框架。它能够通过多种灵活的提示,如图像、视频、文本、标签和哼唱,生成具有情感控制和...
TAAE:Stability AI推出的神经音频编解码模型
TAAE简介 TAAE是由Stability AI推出一种新型的神经音频编解码模型,它利用基于Transformer的架构和有限标量量化(FSQ)技术,在极低的比特率下实现高质量的语...
TANGOFLUX:英伟达联合新加坡科大推出的文本到音频生成模型
TANGOFLUX简介 TANGOFLUX是由新加坡科技设计大学和NVIDIA共同开发的文本到音频生成模型,拥有约5.15亿参数,能够在3.7秒内生成长达30秒的44.1kHz音频。该模型...
Sketch2Sound:能够根据声音模仿(如口头模仿)生成声音
Sketch2Sound简介 Sketch2Sound是一个音频生成模型,它能够通过理解和响应时间变化的控制信号(如响度、亮度和音高)以及文本提示,从声音模仿中合成高质量的...
CosyVoice 2:阿里推出的先进流式语音合成模型
CosyVoice 2简介 CosyVoice 2是由阿里巴巴集团开发的先进流式语音合成模型,它通过整合大型语言模型,实现了在流式模式下人类水平的自然度和几乎无损的合成质...