VITA-Audio：一款新型端到端大型语音模型

0 30

VITA-Audio项目简介

VITA-Audio是由腾讯优图实验室、南京大学和厦门大学联合开发的一款新型端到端大型语音模型。该模型通过轻量级的多跨模态标记预测（MCTP）模块，实现了在单次模型前向传播中高效生成多个音频标记，显著降低了语音生成的延迟，同时保持了高质量的语音输出。VITA-Audio采用四阶段渐进式训练策略，能够快速生成音频响应，适用于实时对话场景。它在自动语音识别（ASR）、文本到语音（TTS）和口语问答（SQA）等多个基准测试中表现出色，超越了类似规模的开源模型，为实时语音交互系统提供了新的技术标准。

VITA-Audio主要功能

实时语音交互：
- VITA-Audio能够在首次模型前向传播中生成音频输出，实现零音频标记延迟，显著提升语音交互的实时性，适用于需要快速响应的场景，如智能语音助手和实时语音对话系统。
高质量语音合成：
- 通过高效的多跨模态标记预测（MCTP）模块，VITA-Audio能够在保持语音质量的同时，快速生成自然流畅的语音，适用于文本到语音（TTS）任务。
语音识别与问答：
- VITA-Audio具备强大的语音识别能力，能够将语音准确转换为文本，并支持口语问答（SQA）任务，能够理解和生成高质量的语音回答，适用于智能客服和语音问答系统。
跨模态对齐：
- VITA-Audio通过轻量级模块实现了文本和语音模态之间的高质量对齐，不仅能够生成与文本对应的语音，还能将语音准确转换为文本，适用于多模态交互场景。

VITA-Audio技术原理

多跨模态标记预测（MCTP）模块：
- VITA-Audio引入了轻量级的MCTP模块，能够在单次模型前向传播中高效生成多个音频标记。这些模块利用LLM的隐藏状态和历史输入，通过简单的映射关系快速生成音频标记，避免了复杂的语义建模。
交错建模范式：
- VITA-Audio采用交错的音频-文本建模范式，将文本和音频标记组合成序列，交替预测文本和音频标记。这种范式能够更好地保留LLM的语言能力，同时实现高效的语音生成。
四阶段渐进式训练策略：
- VITA-Audio通过四阶段训练策略逐步优化模型性能：
  - 音频-文本对齐：通过大规模语音预训练扩展LLM的音频建模能力。
  - 单MCTP模块训练：训练初始MCTP模块基于LLM的输出预测下一个音频标记。
  - 多MCTP模块训练：扩展到多个MCTP模块，预测更多音频标记。
  - 监督微调：使用语音问答数据集进行微调，优化语音到语音对话能力。
轻量级架构设计：
- VITA-Audio的MCTP模块采用轻量级架构，能够在短时间内完成前向传播（约0.0024秒），仅占LLM主干的11%。这种设计使得模型能够在单次前向传播中生成多个音频标记，显著提升推理速度。
开源数据训练：
- VITA-Audio仅使用开源数据进行训练，包括大规模的ASR、TTS和文本数据。这种数据策略不仅保证了模型的可复现性，还通过多领域和多语言的数据资源提升了模型的泛化能力。

VITA-Audio应用场景

智能语音助手：
- VITA-Audio能够快速生成自然流畅的语音回应，适用于智能音箱、手机语音助手等设备，为用户提供实时的语音交互体验。
实时语音翻译：
- 该模型可以将一种语言的语音实时转换为另一种语言的语音，适用于跨国会议、旅游翻译等场景，打破语言障碍。
在线教育平台：
- 在线教育中，VITA-Audio可以将教师的语音实时转换为文字，方便学生记录和复习，同时也可以将文字教材转换为语音，帮助学生更好地理解和学习。
智能客服系统：
- VITA-Audio能够快速识别客户语音并生成高质量的语音回答，适用于呼叫中心和在线客服，提升服务效率和用户体验。
语音播报系统：
- 在公共交通、新闻播报、天气预报等场景中，VITA-Audio可以将文本内容快速转换为自然语音，提供清晰准确的语音播报服务。
游戏语音交互：
- 在游戏场景中，VITA-Audio可以实现玩家与游戏角色之间的实时语音对话，增强游戏的沉浸感和互动性。