Lyra：香港中文大学等推出的多模态语言模型

0 50

Lyra简介

Lyra是由香港中文大学、SmartMore和香港科技大学的联合研究团队开发的一款高效且以语音为中心的多模态大型语言模型框架。该框架通过先进的语音理解和跨模态效率，实现了在多种模态理解和推理任务中的卓越性能，能够直接处理包括长时音频和视频在内的复杂多模态输入。Lyra以其训练数据需求少、速度快、内存使用低的特点，特别适合于对延迟敏感和需要长期上下文的多模态应用。

Lyra主要功能

多模态理解与推理：Lyra能够在多种模态（如视觉、语言、语音）中执行理解和推理任务。
长语音处理：Lyra能够处理长达数小时的音频输入，包括长语音的理解和生成。
高效的模型训练：Lyra使用更少的训练数据，减少训练成本和数据需求。
跨模态交互：Lyra加强了语音与其他模态（如视觉）之间的交互，提升了模型性能。
流式文本-语音生成：Lyra支持同时输出文本和相应的音频，提供实时的AI体验。

Lyra技术原理

多模态LoRA（Low-Rank Adaptation）：Lyra利用LoRA技术减少训练成本，同时保留开源大型模型在特定模态上的强大能力，并发展其在语音模态上的能力。
潜在的多模态正则化器：通过加强语音与其他模态之间的关系，提升模型在多模态任务中的性能。
潜在的多模态提取器：动态选择与文本查询相关的多模态令牌，丢弃冗余的多模态令牌，以提高训练和推理的效率。
长语音SFT数据集：Lyra构建了第一个长语音SFT数据集，包含12K样本，以增强模型处理长音频内容的能力。
流式生成：Lyra采用流式生成技术，允许模型在处理长语音时边接收边生成输出，而不是等待整个输入处理完毕。