Draw an Audio：将无声视频转换成包含日常音效的音频

0 20

Draw an Audio简介

Draw an Audio是由中国科学院自动化研究所和美团公司的研究团队共同开发的一种创新的视频到音频合成技术。该技术通过先进的遮罩注意力模块和时响度模块，能够根据视频内容自动生成与之匹配的音效，实现音频与视频在内容、时间和响度上的精准同步。它支持多指令输入，包括文本、绘制的遮罩和响度信号，使得音频生成过程更加灵活和可控。这项技术在电影制作、游戏开发、虚拟现实等领域具有广泛的应用前景，为提升视听体验提供了强大的技术支持。

Draw an Audio主要功能

视频到音频合成：将无声视频转换成包含日常音效的音频，增强视听体验。
多指令输入支持：通过文本、绘制的遮罩和响度信号等多种方式控制音频生成。
内容一致性保证：确保生成的音频与视频内容在语义上保持一致。
时间和响度同步：音频生成与视频的时间轴和响度变化相匹配。
遮罩注意力模块（MAM）：通过关注视频的特定区域来增强内容的相关性。
时响度模块（TLM）：利用辅助响度信号确保音频的响度和时间与视频同步。
数据集扩展：通过添加字幕提示扩展VGGSound数据集，提高训练效果。

Draw an Audio技术原理

遮罩注意力模块（MAM）：利用视频遮罩作为输入，使模型集中处理视频的特定部分，提升内容一致性。
时响度模块（TLM）：引入手动画的响度信号，通过辅助信号控制生成音频的响度变化。
Root Mean Square (RMS) 和 Exponentially Weighted Moving Average (EWMA)：用于将原始音频转换成类似手工绘制的信号，作为TLM的输入。
变分自编码器（VAE）：用于将音频特征压缩到一个潜在空间，减少计算负担。
Latent Diffusion Model (LDM)：作为基础模型，支持从潜在空间中生成音频。
双分类器自由引导（Dual Classifier-Free Guidance）：在推理阶段，通过调节文本和视频条件的强度来生成音频。
多阶段混合音频合成：能够分阶段合成并混合多个音频，提供更广泛的实际应用。
大规模数据集训练：使用扩展的VGGSound-Caption数据集进行训练，提高模型的泛化能力。