MoshiVis：Kyutai开源的多模态语音模型

0 30

MoshiVis简介

MoshiVis是由Kyutai开源的多模态语音模型，旨在结合视觉理解和语音交互能力，使模型能够自然地与用户进行关于图像内容的实时语音对话。该模型基于强大的Moshi对话语音LLM构建，通过轻量级的适配模块和动态门控机制，有效整合了视觉输入与语音输出，同时保持了低延迟和高质量的语音交互特性。开发团队通过混合图像-文本和图像-语音数据进行训练，设计了高效的训练流程，并引入合成视觉对话数据来增强模型的对话能力。MoshiVis不仅在视觉理解任务中表现出色，还在实时对话中展现了流畅的语音交互和上下文切换能力，为多模态对话系统的发展提供了新的方向。

MoshiVis主要功能

视觉理解与语音交互：
- 能够通过语音与用户进行关于图像内容的实时对话，例如回答关于图像的提问或描述图像内容。
- 支持多种视觉理解任务，如图像描述、视觉问答（VQA）、图像中文本识别（OCR）等。
实时对话能力：
- 实现全双工实时对话，即模型可以同时进行语音输入和输出，无需明确的说话信号。
- 保持低延迟（如在L4 GPU上每步推理延迟仅增加7毫秒），确保流畅的交互体验。
多模态融合：
- 有效整合视觉输入（图像）和语音输出，使模型能够自然地在图像相关话题和其他一般话题之间切换。
- 保留语音的韵律特征（如语调、情感等），这些特征无法从文本中推断出来。
上下文切换与灵活性：
- 通过动态门控机制，模型可以根据对话上下文动态调整视觉输入的影响，从而在图像相关和非相关话题之间灵活切换。
- 支持多轮对话，能够处理复杂的对话场景，如连续提问、误导性问题等。
数据高效训练：
- 利用“无语音”数据（图像和文本）和少量语音样本进行混合训练，有效利用现有的大量视觉语言数据集。
- 设计了合成视觉对话数据生成管道，生成逼真的语音对话数据，增强模型的对话能力。

MoshiVis技术原理

基于Transformer的架构：
- 使用标准的7B参数解码器仅Transformer作为基础模型，接受语音标记（文本标记和音频标记的总和）作为输入。
- 输出文本标记和音频帧，支持实时的语音生成和对话。
轻量级适配模块：
- 在每个Transformer块中引入交叉注意力（Cross-Attention）模块，将视觉输入（图像嵌入）注入到语音标记流中。
- 使用门控机制调节视觉输入的流量，通过一个二层MLP和sigmoid激活函数动态控制视觉信息的权重。
混合数据训练：
- 利用“无语音”数据（图像和文本）和少量语音样本进行混合训练，有效利用现有的大量视觉语言数据集。
- 通过混合监督策略，即使在没有音频数据的情况下，模型也能学习图像和语音之间的对齐关系。
合成视觉对话数据生成：
- 设计了一个合成数据生成管道，使用两个Mistral-Nemo模型分别扮演“用户”和“助手”角色，生成逼真的语音对话数据。
- 对话数据包括多种类型的交互，如空间信息、对象属性、计数、误导性问题等，增强模型的对话能力和鲁棒性。
实时推理优化：
- 在推理时，图像嵌入的键（Key）和值（Value）可以预先计算并缓存，减少内存成本和计算开销。
- 保持模型的轻量级训练流程，仅训练适配模块（约206M参数），确保高效的推理性能。
上下文切换机制：
- 通过门控机制和数据增强（如在对话中加入不相关的前缀/后缀）提高模型在上下文切换时的鲁棒性。
- 使模型能够在图像相关话题和非相关话题之间灵活切换，保持对话的自然性和连贯性。