LSLM：具备边听边说能力的语音模型，实现实时的双向交流

0 100

LSLM简介

LSLM（Listening-while-Speaking Language Model）是由上海交通大学人工智能教育部重点实验室X-LANCE实验室与字节跳动公司联合开发的创新性端到端模型。该模型专为提升实时交互体验而设计，具备边听边说的能力，通过整合基于令牌的解码器仅文本到语音（TTS）模型和流式自监督学习（SSL）编码器，实现实时音频输入处理。LSLM通过三种融合策略——早期融合、中期融合和晚期融合——优化语音生成与实时互动之间的平衡，其中中期融合表现最为出色。该模型在嘈杂环境中展现出强大的鲁棒性，并能对未见说话者的多样化指令做出灵敏反应，推动了交互式语音对话系统向现实世界应用的更进一步发展。

LSLM主要功能

实时双向交流：LSLM能够同时进行听和说的操作，实现实时的双向交流。
中断检测：模型能够检测到人类说话时的中断，并做出相应的响应，例如停止说话。
噪声鲁棒性：即使在嘈杂的环境中，LSLM也能准确识别和响应语音指令。
对未见说话者的敏感性：模型能够识别并响应来自未知说话者的指令，提高了交互的普适性。

LSLM技术原理

双通道设计：LSLM包含听和说两个独立的通道，分别处理音频输入和语音生成。
基于令牌的解码器仅TTS：使用基于令牌的解码器来生成语音，这种设计适合实时交互，因为它不需要等待整个序列的完成。
流式自监督学习（SSL）编码器：用于实时处理音频输入，将连续的音频信号转换为模型可以处理的离散令牌或连续嵌入。
多融合策略：
- 早期融合：在自回归预测之前将听和说通道的信息整合到输入嵌入中。
- 中期融合：在每个Transformer块中合并听和说通道的信息，除了说话通道的隐藏状态和位置嵌入外，还将听通道的信息添加到每个Transformer块的输入中。
- 晚期融合：在softmax操作前将通道信息合并到输出逻辑值中。
端到端训练：LSLM作为一个整体进行训练，优化了模型参数以同时提升语音生成和实时交互的能力。
自适应中断处理：模型通过增加中断令牌（IRQ）来提前终止当前的语音输出，以响应实时的语音输入。
上下文感知：模型在生成响应时考虑了上下文信息，提高了对话的连贯性和相关性。