TIGER：清华大学等推出的新型轻量级语音分离模型

0 90

TIGER简介

TIGER（Time-frequency Interleaved Gain Extraction and Reconstruction network）是由清华大学计算机系、清华-IDG/麦戈文脑科学研究院以及北京脑科学与类脑研究中心的研究团队共同开发的一种新型轻量级语音分离模型。该模型专注于提高语音分离的效率和性能，通过频带分割和交替的时间-频率建模策略，显著减少了模型参数和计算成本。TIGER引入了多尺度选择性注意力模块和全频率帧注意力模块，能够高效整合时间和频率特征，同时提出了EchoSet数据集，用于更真实地模拟复杂声学环境。实验表明，TIGER在保持高性能的同时，参数数量不到100万，计算效率大幅提升，适用于资源受限的设备，为低延迟语音处理系统提供了新的解决方案。

TIGER主要功能

高效语音分离：TIGER能够在复杂声学环境中高效地分离混合音频信号中的不同声源，提供清晰、独立的语音输出。
低计算成本：通过优化模型结构，TIGER显著减少了参数数量和计算成本，使其适用于低延迟和资源受限的设备。
高性能：尽管模型轻量化，TIGER在多个数据集上的表现超过了现有的最先进模型，尤其在复杂的真实世界场景中表现优异。
泛化能力强：TIGER在新的EchoSet数据集上训练，能够更好地适应现实中的各种噪声和混响环境，提升了模型的实际应用价值。

TIGER技术原理

频带分割策略：TIGER利用频带分割策略，将频率维度划分为不同宽度的子带，基于其重要性进行压缩。这种方法使模型能够专注于关键频率信息，减少计算复杂度。
时间-频率交替建模：TIGER采用频率-帧交错（FFI）块，交替处理时间和频率特征。FFI块包含两个关键子模块：多尺度选择性注意力（MSA）模块和全频率帧注意力（F3A）模块。
多尺度选择性注意力（MSA）模块：MSA模块通过选择性注意力机制增强重要特征，分为编码、融合和解码三个阶段，全面整合多尺度声学特征。
全频率帧注意力（F3A）模块：F3A模块用于整合不同子带的特征，通过自注意力机制捕捉全频率和时间的上下文信息，提升模型的全局特征提取能力。
高效的分离器设计：TIGER的分离器由多个共享参数的FFI块组成，通过频率路径和帧路径交替处理输入特征，实现高效的时间和频率建模。
频带恢复模块：在分离器处理后，频带恢复模块将子带恢复到原始频率范围，并生成每个说话者的掩模，最终通过逆STFT生成干净的语音信号。