TANGOFLUX:英伟达联合新加坡科大推出的文本到音频生成模型
TANGOFLUX简介
TANGOFLUX是由新加坡科技设计大学和NVIDIA共同开发的文本到音频生成模型,拥有约5.15亿参数,能够在3.7秒内生成长达30秒的44.1kHz音频。该模型采用CLAP-Ranked Preference Optimization (CRPO)框架,通过迭代生成和优化偏好数据来提高音频与文本描述的对齐度,实现了在保持高效率的同时,音频质量优于其他同类模型。TANGOFLUX完全基于开源数据训练,已公开代码和模型权重,以促进文本到音频生成领域的研究。
TANGOFLUX主要功能
- 高效音频生成:TANGOFLUX能够快速生成长达30秒的44.1kHz高质量音频,显著减少了生成音频所需的时间。
- 文本到音频转换:该模型可以直接将文本描述转换成相应的音频内容。
- 偏好优化:通过CLAP-Ranked Preference Optimization (CRPO)框架,模型能够学习并优化音频输出以更好地符合用户的偏好。
- 非专有数据训练:TANGOFLUX完全在非专有数据集上训练,确保了模型的公开可用性和研究的可扩展性。
- 开源贡献:模型的代码和预训练权重已开源,支持社区进一步研究和开发。
TANGOFLUX技术原理
- CLAP-Ranked Preference Optimization (CRPO):
- CRPO框架通过迭代生成和优化偏好数据来增强文本到音频的对齐。
- 使用CLAP模型作为代理奖励模型,通过余弦相似度评估生成音频与文本描述的对齐度。
- FluxTransformer架构:
- 结合Diffusion Transformer (DiT)和Multimodal Diffusion Transformer (MMDiT),根据文本提示和持续时间嵌入生成音频。
- 变分自编码器(VAE):
- 使用VAE将立体声音频波形编码为潜在表示,再将潜在表示解码回原始音频。
- 流匹配(Flow Matching):
- 利用流匹配框架生成样本,通过学习时间依赖的向量场将简单先验分布(如高斯分布)映射到复杂目标分布。
- 直接偏好优化(DPO):
- 将DPO应用于扩散模型,通过优化胜者和败者之间的相对可能性来提高模型输出的偏好排名。
- 在线批量数据生成:
- 在CRPO的每次迭代中,通过在线生成新数据来构建偏好数据集,防止性能饱和和退化。
- 推理效率:
- TANGOFLUX在保持高性能的同时,显著减少了推理时间,提高了模型的实用性。
- 人类评估和客观指标:
- 结合人类评估和客观音频评估指标(如Fréchet Distance和CLAPscore)来验证模型性能。
TANGOFLUX应用场景
- 多媒体内容创作:TANGOFLUX可以自动从文本描述中生成音频,用于视频制作、播客和音乐制作,丰富多媒体内容的音频层次。
- 电影和游戏音效:在电影后期制作和视频游戏开发中,TANGOFLUX能够根据场景文本描述生成逼真的音效,提高制作效率。
- 语言学习应用:该模型可以生成特定语言的发音音频,辅助语言学习软件提供更自然的听力和发音练习材料。
- 有声读物制作:TANGOFLUX能够将文本内容转换为有声读物,为视障人士或偏好听书的用户创造更加便捷的阅读体验。
- 虚拟助手和聊天机器人:集成TANGOFLUX的虚拟助手能够根据用户的文本指令生成自然的语音响应,提升人机交互的自然度。
- 紧急警报和通知系统:在紧急情况下,TANGOFLUX可以根据预设的文本模板快速生成警报声或紧急通知,提高响应速度。
TANGOFLUX项目入口
- 项目主页:https://tangoflux.github.io/
- GitHub代码库:https://github.com/declare-lab/TangoFlux
- arXiv研究论文:https://arxiv.org/pdf/2412.21037
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...