DITTO-2:Adobe联合加州大学推出的可控音乐生成模型

DITTO-2简介

DITTO-2 是由加州大学圣地亚哥分校和 Adobe Research 联合开发的一种新型可控音乐生成模型。该技术旨在通过加速扩散模型的推理时间优化(ITO)过程,实现快速、高质量且可控的音乐生成。DITTO-2 通过改进扩散模型的蒸馏和优化策略,将生成速度提升至超过实时水平,同时显著改善了控制精度和音频质量。开发团队通过一致性模型(CM)和一致性轨迹模型(CTM)的蒸馏技术,以及替代优化策略,大幅减少了计算成本,使得 DITTO-2 在多个音乐生成任务上表现出色,包括强度控制、旋律控制和音乐结构控制等。此外,DITTO-2 还能够将无条件扩散模型转换为具有文本控制能力的模型,为实时交互式音乐创作和文本到音乐生成提供了新的可能性。

DITTO-2:Adobe联合加州大学推出的可控音乐生成模型

DITTO-2主要功能

  1. 快速音乐生成:DITTO-2 能够在比实时快的速度下生成音乐,适用于多种应用场景,如音乐填充(inpainting)、扩展(outpainting)、强度控制、旋律控制和音乐结构控制等。
  2. 高质量生成:通过改进的扩散模型蒸馏和优化策略,DITTO-2 在保持生成速度的同时,显著提高了生成音乐的音频质量。
  3. 精确控制:DITTO-2 提供了对音乐生成过程的精细控制,包括对旋律、强度和音乐结构的控制,满足创作者对音乐细节的需求。
  4. 文本到音乐生成:DITTO-2 能够将无条件扩散模型转换为具有文本控制能力的模型,实现文本到音乐的生成,增强了模型的适用性和灵活性。

DITTO-2技术原理

  1. 扩散模型蒸馏(Diffusion Distillation)
    • 使用一致性模型(CM)或一致性轨迹模型(CTM)对预训练的扩散模型进行蒸馏。
    • 蒸馏后的模型能够在单步采样中快速生成音乐,同时保持高质量。
    • CM 和 CTM 的蒸馏过程被优化以适应推理时间优化(ITO)方法,减少了采样步骤,同时避免了传统扩散模型在少步采样时的质量下降。
  2. 替代优化(Surrogate Optimization)
    • 将 ITO 过程分为优化阶段和解码阶段。
    • 优化阶段使用蒸馏后的模型进行单步采样,以快速估计初始噪声潜变量。
    • 解码阶段使用多步采样生成高质量的最终音乐输出。
    • 替代优化目标允许在优化过程中使用高效的单步采样,同时在解码阶段利用多步采样提升质量。
  3. 推理时间优化(Inference-Time Optimization, ITO)
    • 通过优化初始噪声潜变量来实现对生成音乐的控制。
    • 定义可微分的特征提取函数(如旋律提取、强度控制等)和匹配损失函数,优化潜变量以达到目标风格。
    • DITTO-2 在优化过程中引入了更高效的蒸馏模型,显著减少了优化时间和计算成本。
  4. 自适应采样策略
    • 根据优化步骤动态调整采样步数,例如在优化初期使用单步采样,后期逐步增加采样步数。
    • 这种策略在不显著增加运行时间的情况下,进一步提升了生成音乐的质量和控制精度。
  5. 文本相似性控制
    • 利用 CLAP(Contrastive Language-Audio Pretraining)模型提取音频和文本的嵌入向量。
    • 通过优化生成音乐的 CLAP 嵌入向量与目标文本嵌入向量的相似性,实现高质量的文本到音乐生成。
    • 该技术使得无条件扩散模型能够生成与文本描述高度相关的音乐,无需额外的音乐-文本对训练数据。

DITTO-2应用场景

DITTO-2项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...