MuCodec:清华&腾讯等联合推出的超低比特率音乐编解码器
MuCodec简介
MuCodec是由清华大学深圳国际研究生院和腾讯AI实验室联合开发的一种超低比特率音乐编解码器。它专门针对音乐压缩和重建任务,通过提取声学和语义特征,并采用流匹配技术和预训练的Mel-VAE解码器与HiFi-GAN,实现了在0.35kbps极低比特率下高保真音乐的重建。MuCodec在客观和主观评价指标上均展现出卓越的性能,是目前音乐编解码领域的领先成果。
MuCodec主要功能
- 音乐压缩:MuCodec能够在极低的比特率下对音乐进行高效压缩,显著减少音乐文件的大小。
- 音乐重建:即使在压缩后,MuCodec也能重建接近原音的高保真音乐,保持音质。
- 声学与语义特征提取:MuCodec通过MuEncoder提取音乐中的声学和语义特征,为后续的重建提供基础。
- 残差向量量化(RVQ):使用RVQ技术对提取的特征进行离散化处理,以便于压缩和传输。
- 流匹配重建:利用流匹配技术精细重建Mel-VAE特征,提高重建的准确性和效率。
- 预训练模型应用:通过预训练的Mel-VAE解码器和HiFi-GAN模型,实现音乐的高质量重建。
MuCodec技术原理
- MuEncoder特征提取:MuEncoder基于13个堆叠的Conformer块设计,用于提取背景音乐和人声的声学和语义特征。
- 两阶段训练:MuEncoder通过两阶段训练进行优化,第一阶段使用Mask Language Model约束学习预测掩蔽区域,第二阶段引入重建和歌词识别约束。
- 残差向量量化(RVQ):RVQ通过残差过程压缩表示,并使用级联码本提供更精细的近似。
- 流匹配方法:MuCodec采用流匹配方法进行重建,与基于GAN的方法相比,它提供更稳定的训练和更少的训练步骤。
- Mel-VAE特征重建:流匹配的目标是重建低比特率离散表示以获得Mel-VAE特征,而不是直接重建音乐或其Mel频谱图。
- 预训练模型:使用预训练的Mel-VAE解码器将Mel-VAE特征恢复为Mel频谱图,然后使用HiFi-GAN生成重建的音乐,确保音质。
MuCodec应用场景
- 在线音乐流媒体服务:在网络带宽有限的情况下,MuCodec能够以极低的比特率传输高质量的音乐,优化数据传输效率。
- 移动音乐播放器:减少音乐文件的大小,节省存储空间,同时保持音质,提升用户体验。
- 音乐制作与分享:音乐制作人可以利用MuCodec快速分享作品草稿,减少文件传输时间。
- 车载音乐系统:在车载环境中,MuCodec可以在保持音质的同时减少数据加载时间,提升驾驶体验。
- 智能设备音乐播放:在智能手表或智能家居设备上,MuCodec可以在有限的存储和处理能力下播放高质量音乐。
- 音乐教育与练习:学生和音乐爱好者可以使用MuCodec在低带宽网络环境下接收和播放教学音乐,降低学习成本。
MuCodec项目入口
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...