TANGOFLUX：英伟达联合新加坡科大推出的文本到音频生成模型

0 100

TANGOFLUX简介

TANGOFLUX是由新加坡科技设计大学和NVIDIA共同开发的文本到音频生成模型，拥有约5.15亿参数，能够在3.7秒内生成长达30秒的44.1kHz音频。该模型采用CLAP-Ranked Preference Optimization (CRPO)框架，通过迭代生成和优化偏好数据来提高音频与文本描述的对齐度，实现了在保持高效率的同时，音频质量优于其他同类模型。TANGOFLUX完全基于开源数据训练，已公开代码和模型权重，以促进文本到音频生成领域的研究。

TANGOFLUX主要功能

高效音频生成：TANGOFLUX能够快速生成长达30秒的44.1kHz高质量音频，显著减少了生成音频所需的时间。
文本到音频转换：该模型可以直接将文本描述转换成相应的音频内容。
偏好优化：通过CLAP-Ranked Preference Optimization (CRPO)框架，模型能够学习并优化音频输出以更好地符合用户的偏好。
非专有数据训练：TANGOFLUX完全在非专有数据集上训练，确保了模型的公开可用性和研究的可扩展性。
开源贡献：模型的代码和预训练权重已开源，支持社区进一步研究和开发。

TANGOFLUX技术原理

CLAP-Ranked Preference Optimization (CRPO)：
- CRPO框架通过迭代生成和优化偏好数据来增强文本到音频的对齐。
- 使用CLAP模型作为代理奖励模型，通过余弦相似度评估生成音频与文本描述的对齐度。
FluxTransformer架构：
- 结合Diffusion Transformer (DiT)和Multimodal Diffusion Transformer (MMDiT)，根据文本提示和持续时间嵌入生成音频。
变分自编码器（VAE）：
- 使用VAE将立体声音频波形编码为潜在表示，再将潜在表示解码回原始音频。
流匹配（Flow Matching）：
- 利用流匹配框架生成样本，通过学习时间依赖的向量场将简单先验分布（如高斯分布）映射到复杂目标分布。
直接偏好优化（DPO）：
- 将DPO应用于扩散模型，通过优化胜者和败者之间的相对可能性来提高模型输出的偏好排名。
在线批量数据生成：
- 在CRPO的每次迭代中，通过在线生成新数据来构建偏好数据集，防止性能饱和和退化。
推理效率：
- TANGOFLUX在保持高性能的同时，显著减少了推理时间，提高了模型的实用性。
人类评估和客观指标：
- 结合人类评估和客观音频评估指标（如Fréchet Distance和CLAPscore）来验证模型性能。