Dolphin：海天瑞声联合清华推出的多语言自动语音识别模型

0 40

Dolphin简介

Dolphin是由海天瑞声与清华大学电子工程系语音与音频技术实验室共同开发的大型多语言自动语音识别（ASR）模型。该模型基于Whisper架构进行扩展，专注于提升对40种东方语言及22种中文方言的识别准确率。开发团队通过整合内部专有数据集和开源数据集进行训练，使Dolphin在多种语言上的表现显著优于现有的开源模型。Dolphin采用联合CTC-注意力架构，结合E-Branchformer编码器和Transformer解码器，还引入了两级语言标记系统以优化多语言和多方言的识别能力。其训练模型和推理源代码已公开发布，旨在推动多语言语音识别技术的进一步发展和社区创新。

Dolphin主要功能

多语言自动语音识别：Dolphin能够对40种东方语言（包括东亚、南亚、东南亚和中东地区）以及22种中文方言进行高精度的语音识别，显著提升了对这些语言和方言的识别准确率。
多任务支持：Dolphin不仅支持语音转录，还能够进行语言识别、语音活动检测（VAD）和语音分割等任务。此外，它还可以明确识别语音中的口音和方言。
模型规模优化：Dolphin提供了不同规模的模型（基础、小型、中型和大型），以满足不同的应用场景和性能需求。即使是小型模型，也能在保持较小模型大小的同时实现较高的识别准确率。
公开模型和代码：为了促进社区创新和可重复性研究，Dolphin的训练模型和推理源代码已公开发布，方便研究人员和开发者进一步研究和应用。

Dolphin技术原理

联合CTC-注意力架构：
- CTC（Connectionist Temporal Classification）：通过CTC损失函数，模型能够直接从语音到文本进行映射，无需对齐标注数据，提高了训练效率。
- 注意力机制：注意力机制允许模型在解码时动态关注输入语音的不同部分，从而更好地捕捉语音中的关键信息，提高识别的准确性和鲁棒性。
- 结合优势：联合CTC-注意力架构结合了CTC的高效性和注意力机制的灵活性，使得模型在大规模多语言语音识别任务中表现更加出色。
E-Branchformer编码器：
- 并行分支结构：E-Branchformer通过并行的卷积分支和自注意力分支，能够同时捕捉语音信号的局部特征和全局依赖关系，提高了模型对复杂语音信号的建模能力。
- 增强的融合机制：E-Branchformer在分支融合时引入了增强的门控机制，进一步优化了特征提取的效率和效果，使得模型能够更有效地处理多语言和多方言的语音数据。
两级语言标记系统：
- 语言标记：第一级标记用于指定语言（如<zh>表示中文，<ja>表示日语），帮助模型识别不同语言的基本特征。
- 地区标记：第二级标记用于指示地区（如<CN>表示中国，<JP>表示日本），使模型能够区分同一语言在不同地区的方言和口音差异，增强了模型对语言多样性的适应能力。
大规模数据集训练：
- 专有数据与开源数据结合：Dolphin的训练数据集整合了Dataocean AI的内部专有数据和多个开源数据集，包括Common Voice、GigaSpeech 2、WenetSpeech等，总计超过20万小时的音频数据。
- 数据清洗与预处理：对数据进行严格清洗和预处理，确保数据质量。例如，去除低质量的音频片段、纠正标注错误、统一数据格式等，从而提高模型的训练效果。
优化训练策略：
- 数据分块与拼接：为了提高训练效率，Dolphin将短音频片段拼接成长音频片段进行训练，减少了因短音频片段导致的高删除错误率。
- 数据加载优化：采用数据分片策略，每个训练进程仅加载所需的子集数据，显著降低了内存占用，提高了训练的可扩展性。
- 超参数调整：通过调整学习率、优化器、批处理大小等超参数，进一步优化了模型的训练过程，提高了模型的收敛速度和最终性能。