TANGO：生成与目标语音同步的全身手势视频

0 90

TANGO简介

TANGO是由东京大学与CyberAgent AI Lab联合推出的开源框架，旨在通过运动图检索方法生成与目标语音同步的共语手势视频。该框架通过层次化的音频-运动联合嵌入空间精确检索手势，并采用基于扩散的插值网络生成高质量的过渡帧，有效解决了音频-运动错位和视觉伪影问题。TANGO在生成逼真、音频同步的视频方面超越了现有的生成和检索方法，为新闻广播和虚拟内容创作等实际应用大幅降低了制作成本。更多信息和资源可在其项目网站上找到。

TANGO主要功能

生成共语手势视频：TANGO能够根据目标语音音频和少量参考视频生成与语音同步的高保真度身体手势视频。
改善音频-运动对齐：通过层次化的音频-运动嵌入空间，TANGO提高了音频与手势之间的对齐精度。
减少视觉伪影：利用基于扩散的模型生成高质量的过渡帧，减少了GAN生成帧中常见的视觉伪影。
无限长度视频生成：通过图剪枝方法，TANGO能够从有限的参考视频中生成任意长度的连续手势视频。
数据集发布：提供了一个小型的、背景清洁的共语视频数据集，用于验证手势视频生成模型。

TANGO技术原理

层次化音频-运动嵌入空间（AuMoCLIP）：
- 使用对比学习框架，将音频和运动数据编码到一个联合的潜在空间中，使得匹配的音频-运动对在该空间中距离更近。
- 设计了低层次和高层次的双塔编码器，分别用于捕捉局部和全局的音频-运动关联。
- 通过帧级别和剪辑级别的对比损失进行训练，以实现局部和全局的跨模态对齐。
基于扩散的插值网络（ACInterp）：
- 利用现有的视频生成扩散模型，生成高质量的过渡帧，以消除传统基于光流的插值方法中常见的模糊和重影伪影。
- 引入同源背景流和参考运动模块，以保持生成视频与参考视频之间的外观一致性。
图检索和剪枝方法：
- 构建一个有向运动图，其中节点代表视频帧，边代表帧之间的有效转换。
- 通过合并强连通分量子图来增强图的连通性，从而提高长视频采样的效率。
- 使用动态规划等算法在修剪后的图上检索与目标音频最匹配的视频播放路径。
唇部同步后处理：
- 虽然TANGO主要关注身体手势，但它使用Wav2Lip等工具进行唇部同步的后处理，以进一步提高视频的真实性。