Fugatto：英伟达推出的一款多功能音频合成和转换模型

0 90

Fugatto简介

Fugatto是由NVIDIA团队开发的一款多功能音频合成和转换模型，它能够理解和执行自由形式的文本指令，并结合可选的音频输入进行创作。该模型通过特殊的数据集生成方法，揭示了音频和语言之间的深刻联系，并通过ComposableART技术，在推理时实现对音频输出的精细控制和高度定制化。Fugatto不仅在多个音频任务中展现出与专家模型相媲美的性能，还具备合成新兴声音和执行未明确训练任务的能力，为音频领域的创作和研究开辟了新的可能性。

Fugatto主要功能

音频合成与转换： Fugatto能够根据文本指令合成和转换音频，包括声音和音乐的生成。
自由形式文本指令： 模型能够理解和执行自由形式的文本指令，提供灵活的音频创作能力。
多任务处理： 支持广泛的音频生成和转换任务，如语音合成、音频描述生成等。
组合指令： 通过ComposableART技术，Fugatto能够组合、插值和否定指令，实现复杂的音频操作。
无监督多任务学习： 利用大规模数据集和模型规模，Fugatto展现出无监督多任务学习的潜力。

Fugatto技术原理

数据集生成： 使用大型语言模型（LLMs）生成和增强指令，创建描述性的音频数据集。
分类器自由指导（CFG）： 在推理时，Fugatto利用分类器自由指导技术来提高样本质量和多样性。
Optimal Transport Conditional Flow Matching (OT-CFM)： 作为训练目标，OT-CFM最小化了模型预测和数据之间的均方误差。
Transformer架构： Fugatto基于T5的Transformer架构，适用于处理文本和音频的编码和解码。
Adaptive Layer Norm： 在训练中使用自适应层归一化，以改善模型的训练动态。
课程学习： 采用课程学习策略，逐步增加任务的复杂性，提高模型的泛化能力。
多模态输入： 支持文本和音频的多模态输入，增强模型对不同类型数据的处理能力。