Qwen2.5-Omni：阿里开源的端到端全模态大模型

0 60

Qwen2.5-Omni简介

Qwen2.5-Omni是由阿里开源的端到端全模态大模型，能够处理文本、图像、音频和视频等多种模态输入，并以流式方式同时生成文本和自然语音响应。该模型采用创新的“Thinker-Talker”架构，其中“Thinker”负责理解多模态输入并生成文本，“Talker”则将文本转换为语音输出。开发团队还提出了TMRoPE（时间对齐多模态RoPE）算法，用于同步音频和视频的时间信息，显著提升了多模态融合的效果。Qwen2.5-Omni在多模态基准测试中表现优异，其语音生成能力在自然度和鲁棒性方面也达到了行业领先水平。

Qwen2.5-Omni主要功能

多模态感知与理解：
- 能够处理多种模态的输入，包括文本、图像、音频和视频。
- 支持对复杂场景的理解，例如视频中的语音、图像中的文字以及音频中的情感等。
实时交互与流式生成：
- 以流式方式实时生成文本和自然语音响应，支持连续的多模态交互。
- 适用于语音对话、视频对话和多模态问答等场景。
强大的语音生成能力：
- 提供高质量的语音合成，支持零样本和单说话人语音生成。
- 生成的语音自然流畅，能够准确表达语义和情感。
多模态融合与推理：
- 能够将不同模态的信息进行有效融合，支持复杂的多模态推理任务。
- 在多模态基准测试中表现出色，例如OmniBench和AV-Odyssey Bench。

Qwen2.5-Omni技术原理

Thinker-Talker架构：
- Thinker：负责处理和理解多模态输入，生成高级语义表示和文本输出。它是一个基于Transformer的解码器，能够提取文本、图像和音频中的关键信息。
- Talker：接收Thinker生成的高级表示，并将其转换为语音输出。Talker是一个双轨自回归Transformer解码器，能够直接利用Thinker的隐藏表示生成语音令牌。
时间对齐多模态RoPE（TMRoPE）：
- 一种新颖的位置嵌入算法，用于同步音频和视频的时间信息。
- 将音频和视频帧交错排列，并为每个模态分配独立的位置ID，确保多模态信息的时间对齐。
流式处理与滑动窗口DiT：
- 音频和视觉编码器采用分块处理方法，限制模型的接收场，减少初始包延迟。
- 滑动窗口DiT模型用于将音频令牌解码为波形，通过限制模型的接收场，提高流式输出的质量。
多阶段训练方法：
- 第一阶段：固定LLM参数，单独训练视觉和音频编码器，使用大量的图像-文本和音频-文本对数据。
- 第二阶段：解冻所有参数，使用更广泛的多模态数据进行训练，增强模型对复杂数据的理解能力。
- 第三阶段：使用长序列数据（32k tokens）进一步提升模型对长序列数据的理解能力。
语音生成优化：
- 在语音生成方面，采用零样本学习和强化学习优化，提高语音生成的稳定性和自然度。
- 支持多说话人语音生成，能够通过微调适应特定说话人的语音风格。