JavisDiT：同时生成高质量的音频和视频内容

0 60

JavisDiT简介

JavisDiT是一种新型的联合音频-视频扩散变换器，专门用于从开放式用户提示中同时生成高质量的音频和视频内容，并确保两者的精确同步。它基于强大的Diffusion Transformer架构，通过层次化的时空先验同步估计器（HiST-Sypo Estimator）实现音频和视频之间的细粒度时空对齐。该模型不仅在单模态生成质量上表现出色，还在音频-视频同步性方面取得了显著进步。此外，JavisDiT还引入了一个新的基准数据集JavisBench，包含10,140个高质量的文本标注声音视频，覆盖多样化的场景和复杂的现实场景。通过在JavisBench上的评估，JavisDiT显著优于现有方法，为联合音频-视频生成任务树立了新的标准。

JavisDiT主要功能

高质量音频和视频联合生成：
- JavisDiT能够同时生成高质量的音频和视频内容，确保两者在视觉和听觉上的一致性和协调性。
- 支持从开放式的用户提示（如文本描述）生成多样化的音频-视频对，适用于电影制作、短视频创作等场景。
精确的时空同步：
- 通过层次化的时空先验同步估计器（HiST-Sypo Estimator），JavisDiT能够实现音频和视频之间的细粒度时空对齐。
- 在复杂的现实场景中，模型能够准确地将视觉事件与相应的音频事件对齐，确保生成的内容在时间和空间上高度同步。
多样化场景生成：
- JavisDiT能够生成涵盖多种场景和风格的音频-视频内容，包括自然场景、城市环境、工业场景、虚拟场景等。
- 支持多种视觉风格（如相机拍摄、2D动画、3D动画）和音频类型（如环境音、机械声、音乐、语音等）。
多模态条件生成：
- JavisDiT不仅支持标准的文本到音频-视频生成（T2AV），还支持多种条件生成任务，如音频到视频（A2V）、视频到音频（V2A）、音频图像到视频（AI2V）、图像到音频-视频（I2AV）以及音频-视频扩展（AV-Ext）。
- 这些功能使得JavisDiT在多种应用场景中具有广泛的适用性。

JavisDiT技术原理

Diffusion Transformer（DiT）架构：
- JavisDiT基于Diffusion Transformer（DiT）架构，利用其强大的生成能力和高效的并行处理能力。
- DiT通过扩散过程逐步生成高质量的音频和视频内容，同时保持生成过程的稳定性和可控性。
层次化时空先验同步估计器（HiST-Sypo Estimator）：
- HiST-Sypo Estimator通过对比学习策略从输入文本提示中提取全局粗粒度和细粒度的时空先验。
- 粗粒度先验描述整体事件的语义框架，细粒度先验则具体指导事件的空间位置和时间发生。
- 这些先验作为时空特征注入到不同的DiT块中，指导音频和视频的生成过程，确保两者在时空上的同步。
时空自注意力和交叉注意力机制：
- 时空自注意力（ST-SelfAttn）：通过多头自注意力机制对视频和音频的时空特征进行聚合，捕捉内部的时空关系。
- 时空交叉注意力（ST-CrossAttn）：利用提取的时空先验对音频和视频进行细粒度的条件引导，确保生成内容的时空一致性。
- 多模态双向交叉注意力（MM-BiCrossAttn）：在音频和视频之间进行双向信息交互，进一步提升生成内容的质量和同步性。
多阶段训练策略：
- 音频预训练：使用大规模音频数据集（0.8M样本）初始化音频分支，确保高质量的单模态音频生成。
- ST-Prior训练：使用同步的文本-视频-音频三元组（0.6M样本）和合成的异步负样本训练HiST-Sypo Estimator，学习鲁棒的时空先验。
- 联合生成：冻结视频和音频分支的自注意力块和ST-Prior Estimator，仅训练ST-CrossAttn和Bi-CrossAttn模块，实现同步的音频-视频生成。
JavisBench基准数据集：
- 为了评估模型性能，作者提出了一个新的基准数据集JavisBench，包含10,140个高质量的文本标注声音视频，覆盖多样化的场景和复杂的现实场景。
- 数据集的设计考虑了事件场景、视觉风格、音频类型、空间组成和时间组成等多个维度，确保了数据的多样性和代表性。
JavisScore评估指标：
- 为了更准确地评估音频-视频同步性，作者设计了一个新的评估指标JavisScore，基于时间感知的语义对齐机制。
- 该指标通过分段计算音频-视频对的同步性，并综合评估生成内容的时空一致性，克服了现有评估方法在复杂场景中的局限性。