MobileVD：Qualcomm AI推出的首个移动优化视频扩散模型

0 20

MobileVD简介

MobileVD是由Qualcomm AI Research团队开发的首个移动优化视频扩散模型。该模型针对移动设备的计算和内存限制进行了深度优化，通过降低帧分辨率、引入多尺度时间表示、通道压缩和时间块剪枝等技术，显著减少了模型的计算量和内存占用。同时，MobileVD采用对抗性微调将去噪步骤简化为单步，进一步提高了效率。在Xiaomi 14-Pro上，MobileVD能够在1.7秒内生成14帧512×256像素的视频，计算效率比传统模型提升了523倍，同时仅在视频质量上略有下降。这一成果为视频生成技术在移动设备上的广泛应用奠定了基础，尽管目前输出的视频分辨率和帧数有限，但其优化思路为未来更高分辨率和更长视频的生成提供了可能。

MobileVD主要功能

高效视频生成：
- MobileVD能够在移动设备上快速生成高质量的视频内容，显著降低了计算成本和内存占用，使得视频生成技术能够在资源受限的移动设备上运行。
- 生成的视频具有清晰的细节和连贯的运动效果，适合多种应用场景，如视频编辑、创意内容生成等。
低延迟和低功耗：
- 通过优化模型架构和计算流程，MobileVD在移动设备上的推理速度极快，能够在短时间内生成视频，同时降低设备的功耗，延长电池续航时间。
本地化内容生成：
- 该模型支持在移动设备上本地生成视频内容，无需依赖云端服务器，从而解决了隐私和数据安全问题，同时减少了网络延迟。

MobileVD技术原理

降低分辨率：MobileVD通过降低视频帧的分辨率（如512×256像素），减少了模型的输入尺寸，从而显著降低了计算量和内存需求。同时，通过针对性的微调，确保在低分辨率下仍能保持较高的视频质量。
多尺度时间表示：引入多尺度时间表示，通过在模型中添加时间和空间的多尺度特征，进一步优化了计算效率。这种设计在保持视频质量的同时，减少了模型的计算复杂度。
通道压缩（Channel Funneling）：通过在训练时引入通道压缩矩阵，并在推理时将其与权重矩阵合并，减少了模型的参数数量。这种技术在不损失质量的前提下，显著降低了模型的计算成本。
时间块剪枝（Temporal Block Pruning）：采用学习剪枝技术，去除不重要的时间块，减少了模型的计算负担。通过训练过程中动态调整时间块的重要性，MobileVD能够在推理时仅保留最关键的模块，进一步提高效率。
对抗性微调（Adversarial Finetuning）：将去噪步骤简化为单步，通过对抗性训练优化模型的生成效果。这种技术不仅提高了生成速度，还通过对抗训练提升了生成视频的质量。
优化的交叉注意力机制：通过优化交叉注意力机制，避免了不必要的计算开销，特别是在移动设备上运行时，显著降低了模型的延迟和内存占用。