MinMo：阿里通义推出的多模态语音交互大模型

0 20

MinMo简介

MinMo是由阿里巴巴集团通义实验室的FunAudioLLM团队开发的多模态大型语音交互大模型，旨在实现无缝语音交互。该模型拥有约80亿参数，通过四个阶段的训练，包括语音到文本、文本到语音、语音到语音的对齐以及全双工交互对齐，在超过140万小时的多样化语音数据上进行训练。MinMo在多个基准测试中展现出先进的性能，如语音识别、多语言语音翻译、情感识别等，并能支持全双工交互，即系统在说话的同时可以听取用户的输入，实现真正的双向同时通信。其创新的语音解码器设计，使得MinMo能够生成具有用户指定情感、方言和语速的语音，为语音交互系统的发展树立了新的标准。

MinMo主要功能

语音识别与理解：
- 能够准确识别和理解多种语言的语音输入，包括但不限于普通话、英语、日语、韩语等。
- 可以识别语音中的非语言信息，如情感、语调等，提供更丰富的语义理解。
语音生成：
- 根据文本内容生成自然、流畅的语音输出，支持多种语言和方言。
- 能够根据用户指令生成具有特定情感、语速和方言的语音，增强交互的自然性和表达力。
全双工交互：
- 支持同时双向通信，即系统在说话的同时可以听取用户的输入，实现无缝的对话体验。
- 能够实时响应用户的打断和插入，提供更自然的交互方式。
多语言支持：
- 支持多种语言的语音识别和生成，适用于多语言环境下的交互。
- 能够进行多语言之间的语音翻译，打破语言障碍。
指令遵循：
- 能够理解和遵循用户的各种指令，如控制语音的风格、情感、语速等。
- 支持基于文本的指令，用户可以通过文本输入来控制语音输出的风格和内容。

MinMo技术原理

多模态对齐：
- 语音到文本对齐：通过语音编码器将语音信号转换为文本表示，与预训练的文本LLM进行对齐，使模型能够理解语音内容。
- 文本到语音对齐：将文本LLM的输出与语音生成模块对齐，生成自然的语音输出。
- 语音到语音对齐：通过配对的音频数据训练模型，使模型能够直接从语音到语音进行转换，支持语音风格的控制。
全双工交互机制：
- 全双工预测器：使用Transformer和线性softmax输出层，实时预测是否需要生成系统响应或暂停当前输出以听取用户的新输入。
- 实时交互控制：利用文本LLM的语义理解能力，决定系统是继续当前响应还是切换到监听模式，以响应用户的即时输入。
语音解码器设计：
- 输出投影器：将文本LLM的隐藏状态与语音解码器的维度对齐，生成语义向量。
- 语音标记语言模型（LM）：自回归地生成语音标记，通过固定比例混合语义向量和语音标记，生成自然的语音流。
- Token2wav合成器：将生成的语音标记转换为波形，支持低延迟的实时语音合成。
预训练与微调：
- 预训练：使用大规模的语音和文本数据对模型进行预训练，学习通用的语音和文本特征。
- 任务特定微调：在预训练的基础上，对模型进行任务特定的微调，提升模型在特定任务上的性能，如语音识别、语音翻译等。
指令遵循能力：
- 指令编码：将用户的指令编码为模型可以理解的格式，嵌入到语音生成过程中。
- 风格控制：通过指令控制语音的风格、情感、语速等，使生成的语音符合用户的特定需求。