TANGOFLUX:英伟达联合新加坡科大推出的文本到音频生成模型

TANGOFLUX简介

TANGOFLUX是由新加坡科技设计大学和NVIDIA共同开发的文本到音频生成模型,拥有约5.15亿参数,能够在3.7秒内生成长达30秒的44.1kHz音频。该模型采用CLAP-Ranked Preference Optimization (CRPO)框架,通过迭代生成和优化偏好数据来提高音频与文本描述的对齐度,实现了在保持高效率的同时,音频质量优于其他同类模型。TANGOFLUX完全基于开源数据训练,已公开代码和模型权重,以促进文本到音频生成领域的研究。

TANGOFLUX:英伟达联合新加坡科大推出的文本到音频生成模型

TANGOFLUX主要功能

  1. 高效音频生成:TANGOFLUX能够快速生成长达30秒的44.1kHz高质量音频,显著减少了生成音频所需的时间。
  2. 文本到音频转换:该模型可以直接将文本描述转换成相应的音频内容。
  3. 偏好优化:通过CLAP-Ranked Preference Optimization (CRPO)框架,模型能够学习并优化音频输出以更好地符合用户的偏好。
  4. 非专有数据训练:TANGOFLUX完全在非专有数据集上训练,确保了模型的公开可用性和研究的可扩展性。
  5. 开源贡献:模型的代码和预训练权重已开源,支持社区进一步研究和开发。

TANGOFLUX技术原理

  1. CLAP-Ranked Preference Optimization (CRPO)
    • CRPO框架通过迭代生成和优化偏好数据来增强文本到音频的对齐。
    • 使用CLAP模型作为代理奖励模型,通过余弦相似度评估生成音频与文本描述的对齐度。
  2. FluxTransformer架构
    • 结合Diffusion Transformer (DiT)和Multimodal Diffusion Transformer (MMDiT),根据文本提示和持续时间嵌入生成音频。
  3. 变分自编码器(VAE)
    • 使用VAE将立体声音频波形编码为潜在表示,再将潜在表示解码回原始音频。
  4. 流匹配(Flow Matching)
    • 利用流匹配框架生成样本,通过学习时间依赖的向量场将简单先验分布(如高斯分布)映射到复杂目标分布。
  5. 直接偏好优化(DPO)
    • 将DPO应用于扩散模型,通过优化胜者和败者之间的相对可能性来提高模型输出的偏好排名。
  6. 在线批量数据生成
    • 在CRPO的每次迭代中,通过在线生成新数据来构建偏好数据集,防止性能饱和和退化。
  7. 推理效率
    • TANGOFLUX在保持高性能的同时,显著减少了推理时间,提高了模型的实用性。
  8. 人类评估和客观指标
    • 结合人类评估和客观音频评估指标(如Fréchet Distance和CLAPscore)来验证模型性能。

TANGOFLUX应用场景

  1. 多媒体内容创作:TANGOFLUX可以自动从文本描述中生成音频,用于视频制作、播客和音乐制作,丰富多媒体内容的音频层次。
  2. 电影和游戏音效:在电影后期制作和视频游戏开发中,TANGOFLUX能够根据场景文本描述生成逼真的音效,提高制作效率。
  3. 语言学习应用:该模型可以生成特定语言的发音音频,辅助语言学习软件提供更自然的听力和发音练习材料。
  4. 有声读物制作:TANGOFLUX能够将文本内容转换为有声读物,为视障人士或偏好听书的用户创造更加便捷的阅读体验。
  5. 虚拟助手和聊天机器人:集成TANGOFLUX的虚拟助手能够根据用户的文本指令生成自然的语音响应,提升人机交互的自然度。
  6. 紧急警报和通知系统:在紧急情况下,TANGOFLUX可以根据预设的文本模板快速生成警报声或紧急通知,提高响应速度。

TANGOFLUX项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...