DITTO-2：Adobe联合加州大学推出的可控音乐生成模型

0 30

DITTO-2简介

DITTO-2 是由加州大学圣地亚哥分校和 Adobe Research 联合开发的一种新型可控音乐生成模型。该技术旨在通过加速扩散模型的推理时间优化（ITO）过程，实现快速、高质量且可控的音乐生成。DITTO-2 通过改进扩散模型的蒸馏和优化策略，将生成速度提升至超过实时水平，同时显著改善了控制精度和音频质量。开发团队通过一致性模型（CM）和一致性轨迹模型（CTM）的蒸馏技术，以及替代优化策略，大幅减少了计算成本，使得 DITTO-2 在多个音乐生成任务上表现出色，包括强度控制、旋律控制和音乐结构控制等。此外，DITTO-2 还能够将无条件扩散模型转换为具有文本控制能力的模型，为实时交互式音乐创作和文本到音乐生成提供了新的可能性。

DITTO-2主要功能

快速音乐生成：DITTO-2 能够在比实时快的速度下生成音乐，适用于多种应用场景，如音乐填充（inpainting）、扩展（outpainting）、强度控制、旋律控制和音乐结构控制等。
高质量生成：通过改进的扩散模型蒸馏和优化策略，DITTO-2 在保持生成速度的同时，显著提高了生成音乐的音频质量。
精确控制：DITTO-2 提供了对音乐生成过程的精细控制，包括对旋律、强度和音乐结构的控制，满足创作者对音乐细节的需求。
文本到音乐生成：DITTO-2 能够将无条件扩散模型转换为具有文本控制能力的模型，实现文本到音乐的生成，增强了模型的适用性和灵活性。

DITTO-2技术原理

扩散模型蒸馏（Diffusion Distillation）：
- 使用一致性模型（CM）或一致性轨迹模型（CTM）对预训练的扩散模型进行蒸馏。
- 蒸馏后的模型能够在单步采样中快速生成音乐，同时保持高质量。
- CM 和 CTM 的蒸馏过程被优化以适应推理时间优化（ITO）方法，减少了采样步骤，同时避免了传统扩散模型在少步采样时的质量下降。
替代优化（Surrogate Optimization）：
- 将 ITO 过程分为优化阶段和解码阶段。
- 优化阶段使用蒸馏后的模型进行单步采样，以快速估计初始噪声潜变量。
- 解码阶段使用多步采样生成高质量的最终音乐输出。
- 替代优化目标允许在优化过程中使用高效的单步采样，同时在解码阶段利用多步采样提升质量。
推理时间优化（Inference-Time Optimization, ITO）：
- 通过优化初始噪声潜变量来实现对生成音乐的控制。
- 定义可微分的特征提取函数（如旋律提取、强度控制等）和匹配损失函数，优化潜变量以达到目标风格。
- DITTO-2 在优化过程中引入了更高效的蒸馏模型，显著减少了优化时间和计算成本。
自适应采样策略：
- 根据优化步骤动态调整采样步数，例如在优化初期使用单步采样，后期逐步增加采样步数。
- 这种策略在不显著增加运行时间的情况下，进一步提升了生成音乐的质量和控制精度。
文本相似性控制：
- 利用 CLAP（Contrastive Language-Audio Pretraining）模型提取音频和文本的嵌入向量。
- 通过优化生成音乐的 CLAP 嵌入向量与目标文本嵌入向量的相似性，实现高质量的文本到音乐生成。
- 该技术使得无条件扩散模型能够生成与文本描述高度相关的音乐，无需额外的音乐-文本对训练数据。