MooER:摩尔线程推出的自动语音识别&语音翻译模型
GPT Pilot简介
MooER是由摩尔线程开发的基于大型语言模型(LLM)的自动语音识别(ASR)和自动语音翻译(AST)模型。该模型利用5000小时的伪标记数据集进行训练,展现出与使用数万小时标记数据训练的开源模型相媲美的性能。MooER在Covost2 Zh2en测试集上的表现超越了其他开源语音LLMs,取得了25.2的BLEU分数。Moore Threads团队计划开源MooER的训练代码和策略,以促进社区在语音建模方法和技术实现方面的进步。
GPT Pilot主要功能
- 自动语音识别(ASR):将语音实时转换为文本,适用于多种语言和方言。
- 自动语音翻译(AST):不仅识别语音,还能将其翻译成另一种语言,实现跨语言交流。
GPT Pilot技术原理
- 伪标记数据集:使用开源和自收集的语音数据,通过自动化方法生成伪标签,用于训练模型,减少了对大量手动标注数据的需求。
- 模型结构:采用编码器-适配器-解码器(LLM)的结构,其中编码器负责提取音频特征,适配器执行音频降采样和文本模态融合,LLM基于输入的音频和文本提示执行相应的任务。
- 优化技术:
- DeepSpeed:用于提高训练速度和稳定性。
- 数据加载器加速:加快数据的读取和处理速度。
- 梯度检查点:减少训练过程中的内存使用。
- 梯度累积:允许使用较小的批次大小进行多次迭代,然后累积梯度进行更新。
- BF16加速:使用半精度浮点数格式来加速计算并减少内存占用。
- 训练策略:在训练过程中,编码器参数固定,而适配器和LLM参数参与训练和梯度更新,利用LLM的语义理解能力提升最终的音频理解效果。
- 多任务学习(MTL):在AST任务中,使用ASR和AST的多任务学习方法来提升翻译性能。
- 垂直领域适应性:模型能够快速适应特定垂直领域的应用,如特定行业的语音识别和翻译。
- 硬件加速:基于Moore Threads自产的S4000 GPUs进行训练和推理,展示了国内GPU在大型模型训练和推理中的应用潜力。
GPT Pilot应用场景
- 多语言会议翻译:在国际会议中,实时将演讲者的语音翻译成不同语言的文本。
- 外语教学辅助:帮助学生练习发音和理解,提供即时的语音反馈和翻译。
- 法庭记录:自动记录法庭程序中的语音内容,生成准确的文字记录。
- 医疗咨询:为医生和患者之间的交流提供实时翻译,特别是在多语言环境中。
- 客户服务自动化:在客户服务中自动理解并回应客户的语音查询。
- 媒体内容制作:为电影、电视节目或播客等提供快速的语音到文本转录服务。
GPT Pilot项目入口
- GitHub代码库:https://github.com/MooreThreads/MooER
- arXiv技术论文:https://arxiv.org/pdf/2408.05101
- 在线体验地址:https://mooer-speech.mthreads.com:10077/
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...