MultiFoley：Adobe&密歇根大学推出的音效生成模型

2-4.应用工具音频3个月前更新 AI-77

0 80

MultiFoley简介

MultiFoley是由密歇根大学和Adobe Research的联合研究团队开发的一款先进的视频引导Foley音效生成模型，它通过结合文本、音频和视频的多模态控制信号，能够为无声视频生成与画面动作同步且艺术性增强的声音效果。这一技术突破性地提供了灵活的音频内容定制能力，支持高质量全频带音频生成，并在自动化评估和人类研究中显示出卓越的性能，为创意音频制作开辟了新的可能性。

MultiFoley：Adobe&密歇根大学推出的音效生成模型

MultiFoley主要功能

视频引导的声音效果生成：MultiFoley可以根据无声视频生成相应的声音效果，使声音与视频内容在时间和语义上保持同步。
多模态条件控制：支持通过文本提示、参考音频或视频片段来定制和控制生成的声音效果，提供灵活的声音设计选项。
艺术性和创意声音生成：允许用户创造出与原始视频不同的艺术性声音，例如将狮子的咆哮声变为猫的喵喵声。
高质量音频输出：能够生成高达48kHz全频带的高质量音频，满足专业音频制作的标准。
声音效果定制和扩展：用户可以通过文本提示定制声音效果，或使用部分音频和视频片段来扩展生成完整的Foley声音。

MultiFoley技术原理

联合训练机制：模型结合了互联网视频数据集和专业声音效果库进行训练，以提高音频质量和精确的文本定制能力。
扩散变换器：利用扩散模型通过迭代去噪从随机噪声中生成新的样本，用于视频引导的Foley声音生成。
高质量音频自动编码器：基于DAC-VAE的高质量音频自动编码器将48kHz的音频波形编码成40Hz的潜在特征，用于模型的输入和输出。
多模态编码器：使用预训练的视觉编码器和文本编码器处理视频和文本输入，然后将这些特征与音频潜在特征结合。
交叉注意力机制：在扩散模型中使用交叉注意力机制整合文本和视觉信息，以增强音频生成的语义控制。
分类器自由引导（Classifier-Free Guidance, CFG）：在生成过程中使用CFG技术，通过正负文本提示来控制生成声音的特性，增强模型对音频输出的控制能力。

MultiFoley应用场景

电影和视频制作：MultiFoley可以在电影制作中用于生成与视觉场景同步的声音效果，增强观众的沉浸感。
游戏开发：在游戏中，MultiFoley可以用于生成与游戏动作同步的声音，如角色移动、物品交互等，提升游戏体验。
动画制作：对于动画视频，MultiFoley能够根据动画动作生成相应的声音效果，使动画更加生动。
广告制作：在广告行业中，MultiFoley可以用来创造吸引注意力的声音效果，使广告更加吸引人。
虚拟现实（VR）：在虚拟现实应用中，MultiFoley能够生成与虚拟环境同步的声音，增强用户的沉浸式体验。
教育和培训：MultiFoley可以用于教育视频，为教学内容生成相应的声音效果，提高学习材料的吸引力和效果。

MultiFoley项目入口

项目主页：https://ificl.github.io/MultiFoley
arXiv技术论文：https://arxiv.org/pdf/2411.17698

# 2-4.应用工具音频 # 2.应用工具相关 # AI项目库

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Phi-4-reasoning-plus：一款经过强化学习优化的推理模型

AI-77cn

60

FireRedASR：小红书开源的普通话自动语音识别模型

AI-77cn

90

Pixtral 12B：Mistral 推出的其首款多模态AI模型

AI-77cn

50

Motia：专为软件工程师设计的AI代理框架

AI-77cn

20

Vidi：字节推出的专注于视频理解和编辑的多模态模型

AI-77cn

60

PANGEA：卡内基梅隆大学推出的多语言多模态大型语言模型

AI-77cn

60

暂无评论

暂无评论...

一站式AI信息服务平台：AI工具大全、AI每日快讯、AI项目库、AI融资快报、AI研究报告、AI教程、AI副业、AI考证等。助您全面系统了解AI、使用AI

关于我们广告合作免责声明柒柒快讯

Copyright © 2025 柒柒AI导航粤ICP备2023146609号-1

粤公网安备44011102483711号