MIVE：Adobe联合韩国高校推出的多实例视频编辑框架

0 100

MIVE简介

MIVE是由Adobe联合韩国科学技术院、韩国中央大学推出的多实例视频编辑框架。该框架通过创新的Disentangled Multi-instance Sampling（DMS）和Instance-centric Probability Redistribution（IPR）技术，实现了在视频编辑中对多个对象的精确和忠实编辑，同时有效减少了编辑泄露问题。MIVE框架不依赖于全局编辑提示，而是利用个别实例提示进行编辑，显著提升了编辑的准确性和效率。

MIVE主要功能

多实例视频编辑：MIVE框架能够同时对视频中的多个对象进行精确的编辑，而不影响其他部分。
零样本学习：无需额外训练，MIVE可以直接应用于新的视频编辑任务。
减少编辑泄露：通过特有的技术减少编辑过程中的对象间干扰，即编辑泄露问题。
提高编辑忠实度：确保编辑结果忠实于给定的文本提示，增强编辑的准确性。
空间控制：利用实例掩码进行精确的空间控制，确保编辑仅在指定区域内进行。
新的评价指标：引入了Cross-Instance Accuracy (CIA) Score来量化多实例编辑任务中的注意力泄露。

MIVE技术原理

Disentangled Multi-instance Sampling (DMS)：
- Latent Parallel Sampling (LPS)：独立地对每个实例进行编辑，以减少注意力泄露。
- Noise Parallel Sampling (NPS)：在LPS的基础上，通过融合和重新反转操作来协调独立编辑的实例。
- Latent Fusion：在中间采样步骤中融合多个实例的潜在表示。
- Re-inversion：在潜在融合后进行重新反转，以减少编辑中的伪影和模糊。
Instance-centric Probability Redistribution (IPR)：
- 注意力重分配：调整交叉注意力层中的注意力分布，以增强编辑的局部化和忠实度。
- 编辑定位：确保编辑内容精确地出现在对应的实例掩码内。
MIVE数据集：
- 多样化视频场景：提供了包含200个视频的新数据集，覆盖多种视频场景和实例大小。
- 实例级标注：为每个视频提供了实例级别的掩码和描述性字幕。
评价指标：
- CIA Score：新提出的指标，用于评估多实例视频编辑中的编辑泄露问题。
- 背景保持：衡量编辑过程中背景的保持程度，确保编辑不会影响视频的非目标区域。