DragAnything：快手等推出的新型可控视频生成技术

0 20

DragAnything简介

DragAnything 是由快手技术团队联合浙江大学和新加坡国立大学 Show Lab 研发的一种新型可控视频生成技术。它通过创新的实体表示方法，实现了对视频中任意对象（包括前景和背景）的精确运动控制。用户只需简单绘制轨迹，即可完成交互，无需复杂的掩码或深度图。DragAnything 的核心优势在于其用户友好的交互方式、多实体独立运动控制能力以及卓越的视频生成质量。它在多项性能指标上超越了现有方法，尤其在用户研究中，其运动控制能力获得了显著更高的用户投票支持。该技术为可控视频生成领域带来了新的突破，为未来视频创作提供了更强大的工具。

DragAnything主要功能

实体级运动控制：通过提取视频中每个实体的潜在特征，实现对视频中任意对象的精确运动控制，包括前景和背景。
用户友好的交互：用户只需绘制轨迹即可完成交互，无需复杂的掩码或深度图，极大简化了操作流程。
多实体独立运动控制：支持同时对多个对象进行独立的运动控制，用户可以分别控制不同对象的运动轨迹。
背景运动控制：除了前景对象，DragAnything 还能够控制背景元素的运动，如云层、星空等。
相机运动控制：支持基本的相机运动控制，如放大、缩小、上下左右移动等。

DragAnything技术原理

实体语义表示提取：使用扩散模型的潜在特征来表示每个实体。通过实体掩码提取对应实体的嵌入向量，并将其插入到零矩阵中，形成最终的实体表示。
2D 高斯表示提取：通过轨迹点和半径生成 2D 高斯分布表示，使模型更关注实体的中心区域，增强对实体中心区域的关注。
轨迹控制：用户通过绘制轨迹来指定对象的运动路径。模型根据这些轨迹生成对应的视频，确保对象按照指定路径运动。
视频生成架构：基于 Stable Video Diffusion（SVD）架构，使用 3D U-Net 进行去噪过程，结合实体表示和 2D 高斯表示，实现空间和时间上的高效视频生成。
训练与推理：训练时，使用视频分割数据集和 Co-Tracker 跟踪实体的中心点轨迹，生成对应的实体表示和 2D 高斯表示。推理时，用户通过 SAM 选择需要控制的区域，并拖动区域内任意像素点来形成轨迹，模型根据轨迹生成对应的视频。
损失函数：使用均方误差（MSE）优化模型，结合实体掩码约束损失函数，使其仅在目标区域进行优化，确保生成视频的质量和运动控制的准确性。