TIGER:清华大学等推出的新型轻量级语音分离模型
TIGER简介
TIGER(Time-frequency Interleaved Gain Extraction and Reconstruction network)是由清华大学计算机系、清华-IDG/麦戈文脑科学研究院以及北京脑科学与类脑研究中心的研究团队共同开发的一种新型轻量级语音分离模型。该模型专注于提高语音分离的效率和性能,通过频带分割和交替的时间-频率建模策略,显著减少了模型参数和计算成本。TIGER引入了多尺度选择性注意力模块和全频率帧注意力模块,能够高效整合时间和频率特征,同时提出了EchoSet数据集,用于更真实地模拟复杂声学环境。实验表明,TIGER在保持高性能的同时,参数数量不到100万,计算效率大幅提升,适用于资源受限的设备,为低延迟语音处理系统提供了新的解决方案。

TIGER主要功能
-
高效语音分离:TIGER能够在复杂声学环境中高效地分离混合音频信号中的不同声源,提供清晰、独立的语音输出。
-
低计算成本:通过优化模型结构,TIGER显著减少了参数数量和计算成本,使其适用于低延迟和资源受限的设备。
-
高性能:尽管模型轻量化,TIGER在多个数据集上的表现超过了现有的最先进模型,尤其在复杂的真实世界场景中表现优异。
-
泛化能力强:TIGER在新的EchoSet数据集上训练,能够更好地适应现实中的各种噪声和混响环境,提升了模型的实际应用价值。
TIGER技术原理
-
频带分割策略:TIGER利用频带分割策略,将频率维度划分为不同宽度的子带,基于其重要性进行压缩。这种方法使模型能够专注于关键频率信息,减少计算复杂度。
-
时间-频率交替建模:TIGER采用频率-帧交错(FFI)块,交替处理时间和频率特征。FFI块包含两个关键子模块:多尺度选择性注意力(MSA)模块和全频率帧注意力(F3A)模块。
-
多尺度选择性注意力(MSA)模块:MSA模块通过选择性注意力机制增强重要特征,分为编码、融合和解码三个阶段,全面整合多尺度声学特征。
-
全频率帧注意力(F3A)模块:F3A模块用于整合不同子带的特征,通过自注意力机制捕捉全频率和时间的上下文信息,提升模型的全局特征提取能力。
-
高效的分离器设计:TIGER的分离器由多个共享参数的FFI块组成,通过频率路径和帧路径交替处理输入特征,实现高效的时间和频率建模。
-
频带恢复模块:在分离器处理后,频带恢复模块将子带恢复到原始频率范围,并生成每个说话者的掩模,最终通过逆STFT生成干净的语音信号。
TIGER应用场景
-
智能语音助手:在嘈杂环境中,帮助语音助手更准确地识别和分离用户的语音指令,提升交互体验。
-
视频会议:分离不同发言者的语音,减少背景噪声和混响干扰,提高会议通话质量。
-
车载语音系统:在车内复杂声学环境中,清晰分离驾驶员和乘客的语音指令,优化语音交互功能。
-
助听器与听力设备:增强语音信号,分离背景噪声,帮助听力障碍者更好地理解对话内容。
-
电影和视频制作:在后期制作中分离对白、音乐和音效,便于独立处理和优化音频轨道。
-
智能家居控制:在家庭环境中,分离不同用户的语音指令,提升智能家居设备的语音识别准确性。
TIGER项目入口
- 项目主页:https://cslikai.cn/TIGER/
- Github代码库:https://github.com/JusperLee/TIGER
- arXiv技术论文:https://arxiv.org/pdf/2410.01469
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...