Ichigo：一款开源的实时混合模态语音助手

0 30

Ichigo简介

Ichigo是一个混合模态实时语音助手，能够无缝处理语音和文本的交织序列。它采用标记化早期融合方法，将语音量化为离散标记，并利用统一的变换器架构同时处理语音和文本，实现跨模态的联合推理和生成。Ichigo在语音问答基准测试中展现出色性能，超越了现有的开源语音语言模型，并以极低的延迟（仅111毫秒）生成第一个标记，显著低于当前模型，为多模态AI领域提供了一个高效、创新的解决方案。

Ichigo主要功能

多模态处理： Ichigo能够处理和理解语音和文本的交织序列，使其能够执行涉及这两种模态的任务。
实时响应： 模型设计为实时响应，具有低延迟（111毫秒）生成第一个标记的能力，适合实时语音交互。
语音问答： 在语音问答基准测试中表现出色，能够理解和回答语音问题。
跨模态推理： 支持跨语音和文本模态的推理，能够处理混合了语音和文本的复杂文档。
指令遵循： 能够理解和执行多轮对话中的指令，无论是文本还是语音输入。

Ichigo技术原理

标记化早期融合： Ichigo使用WhisperVQ将连续的语音量化为离散的标记，类似于文本中的单词，允许使用统一的变换器架构处理语音和文本标记。
统一的变换器架构： 通过将所有模态投影到共享的表示空间，Ichigo能够跨模态进行平滑的推理和生成。
预训练和微调： Ichigo在多语言语音识别数据集上进行预训练，并在精选的指令数据集上进行微调，以优化其在特定任务上的表现。
数据集构建： 通过结合公开的自动语音识别（ASR）数据集和文本指令数据，Ichigo的训练数据集覆盖了多种语言和丰富的交互场景。
特殊标记引入： 为了处理音频文件输入，Ichigo引入了特殊的标记，如<|sound_start|>和<|sound_end|>，来界定音频输入的开始和结束。
性能优化： 通过调整新标记的初始化方式和训练策略，Ichigo在保持原始语言模型性能的同时，扩展了其在语音领域的能力。
多阶段训练： 包括预训练、指令微调和增强微调，每个阶段都针对模型的不同性能和功能进行优化。
抗噪声能力： 通过在训练中引入噪声数据，Ichigo学会了区分可听和不可听输入，提高了模型的鲁棒性。