MooER：摩尔线程推出的自动语音识别&语音翻译模型

0 80

GPT Pilot简介

MooER是由摩尔线程开发的基于大型语言模型（LLM）的自动语音识别（ASR）和自动语音翻译（AST）模型。该模型利用5000小时的伪标记数据集进行训练，展现出与使用数万小时标记数据训练的开源模型相媲美的性能。MooER在Covost2 Zh2en测试集上的表现超越了其他开源语音LLMs，取得了25.2的BLEU分数。Moore Threads团队计划开源MooER的训练代码和策略，以促进社区在语音建模方法和技术实现方面的进步。

GPT Pilot主要功能

自动语音识别（ASR）：将语音实时转换为文本，适用于多种语言和方言。
自动语音翻译（AST）：不仅识别语音，还能将其翻译成另一种语言，实现跨语言交流。

GPT Pilot技术原理

伪标记数据集：使用开源和自收集的语音数据，通过自动化方法生成伪标签，用于训练模型，减少了对大量手动标注数据的需求。
模型结构：采用编码器-适配器-解码器（LLM）的结构，其中编码器负责提取音频特征，适配器执行音频降采样和文本模态融合，LLM基于输入的音频和文本提示执行相应的任务。
优化技术：
- DeepSpeed：用于提高训练速度和稳定性。
- 数据加载器加速：加快数据的读取和处理速度。
- 梯度检查点：减少训练过程中的内存使用。
- 梯度累积：允许使用较小的批次大小进行多次迭代，然后累积梯度进行更新。
- BF16加速：使用半精度浮点数格式来加速计算并减少内存占用。
训练策略：在训练过程中，编码器参数固定，而适配器和LLM参数参与训练和梯度更新，利用LLM的语义理解能力提升最终的音频理解效果。
多任务学习（MTL）：在AST任务中，使用ASR和AST的多任务学习方法来提升翻译性能。
垂直领域适应性：模型能够快速适应特定垂直领域的应用，如特定行业的语音识别和翻译。
硬件加速：基于Moore Threads自产的S4000 GPUs进行训练和推理，展示了国内GPU在大型模型训练和推理中的应用潜力。