MultiFoley:Adobe&密歇根大学推出的音效生成模型

MultiFoley简介

MultiFoley是由密歇根大学和Adobe Research的联合研究团队开发的一款先进的视频引导Foley音效生成模型,它通过结合文本、音频和视频的多模态控制信号,能够为无声视频生成与画面动作同步且艺术性增强的声音效果。这一技术突破性地提供了灵活的音频内容定制能力,支持高质量全频带音频生成,并在自动化评估和人类研究中显示出卓越的性能,为创意音频制作开辟了新的可能性。

MultiFoley:Adobe&密歇根大学推出的音效生成模型

MultiFoley主要功能

  1. 视频引导的声音效果生成:MultiFoley可以根据无声视频生成相应的声音效果,使声音与视频内容在时间和语义上保持同步。
  2. 多模态条件控制:支持通过文本提示、参考音频或视频片段来定制和控制生成的声音效果,提供灵活的声音设计选项。
  3. 艺术性和创意声音生成:允许用户创造出与原始视频不同的艺术性声音,例如将狮子的咆哮声变为猫的喵喵声。
  4. 高质量音频输出:能够生成高达48kHz全频带的高质量音频,满足专业音频制作的标准。
  5. 声音效果定制和扩展:用户可以通过文本提示定制声音效果,或使用部分音频和视频片段来扩展生成完整的Foley声音。

MultiFoley技术原理

  1. 联合训练机制:模型结合了互联网视频数据集和专业声音效果库进行训练,以提高音频质量和精确的文本定制能力。
  2. 扩散变换器:利用扩散模型通过迭代去噪从随机噪声中生成新的样本,用于视频引导的Foley声音生成。
  3. 高质量音频自动编码器:基于DAC-VAE的高质量音频自动编码器将48kHz的音频波形编码成40Hz的潜在特征,用于模型的输入和输出。
  4. 多模态编码器:使用预训练的视觉编码器和文本编码器处理视频和文本输入,然后将这些特征与音频潜在特征结合。
  5. 交叉注意力机制:在扩散模型中使用交叉注意力机制整合文本和视觉信息,以增强音频生成的语义控制。
  6. 分类器自由引导(Classifier-Free Guidance, CFG):在生成过程中使用CFG技术,通过正负文本提示来控制生成声音的特性,增强模型对音频输出的控制能力。

MultiFoley应用场景

  1. 电影和视频制作:MultiFoley可以在电影制作中用于生成与视觉场景同步的声音效果,增强观众的沉浸感。
  2. 游戏开发:在游戏中,MultiFoley可以用于生成与游戏动作同步的声音,如角色移动、物品交互等,提升游戏体验。
  3. 动画制作:对于动画视频,MultiFoley能够根据动画动作生成相应的声音效果,使动画更加生动。
  4. 广告制作:在广告行业中,MultiFoley可以用来创造吸引注意力的声音效果,使广告更加吸引人。
  5. 虚拟现实(VR):在虚拟现实应用中,MultiFoley能够生成与虚拟环境同步的声音,增强用户的沉浸式体验。
  6. 教育和培训:MultiFoley可以用于教育视频,为教学内容生成相应的声音效果,提高学习材料的吸引力和效果。

MultiFoley项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...