LLaMA-Omni：中国科学院推出的低延迟语音交互模型

0 100

LLaMA-Omni 简介

LLaMA-Omni是由中国科学院计算技术研究所智能信息处理重点实验室的团队开发的一种新型模型架构，旨在实现与大型语言模型（LLMs）的无缝语音交互。该模型通过集成预训练的语音编码器、语音适配器、LLM和流式语音解码器，能够在不将语音转录为文本的情况下，直接从语音指令生成文本和语音响应，显著降低了延迟并提升了用户体验。LLaMA-Omni的提出，代表了在开源社区构建基于LLMs的语音交互模型方面的重要探索。

LLaMA-Omni 主要功能

低延迟语音交互：能够以极低的延迟从语音指令中生成文本和语音响应。
无需语音转录：省去了将语音转换成文本的步骤，直接理解语音指令并作出回应。
高质量的响应生成：生成的文本和语音响应在内容和风格上都具有高质量。
高效的模型训练：在相对较少的计算资源下，训练过程快速，不到3天即可完成。

LLaMA-Omni 技术原理

语音编码器：使用Whisper-large-v3模型作为语音编码器，将用户的语音指令编码成有意义的表示形式。
语音适配器：通过一个可训练的适配器将语音表示适配到大型语言模型的嵌入空间，以便模型能够理解语音输入。
大型语言模型（LLM）：采用Llama-3.1-8B-Instruct模型，它具备强大的推理能力，并与人类偏好良好对齐。
流式语音解码器：使用非自回归的流式Transformer模型，以流式方式生成与文本响应对应的离散单元序列。
连接时序分类（CTC）：使用CTC技术来预测与语音响应对应的离散单元序列，实现非自回归的语音生成。
两阶段训练策略：
- 第一阶段：训练语音适配器和LLM直接从语音指令生成文本响应。
- 第二阶段：固定语音编码器、适配器和LLM，只训练语音解码器生成语音响应。
数据集构建：创建了InstructS2S-200K数据集，包含20万个语音指令及其对应的语音响应，以适应语音交互场景。
实时语音合成：在生成文本响应的同时，实时生成对应的语音输出，确保用户无需等待完整文本响应生成就能听到回复。