DragAnything:快手等推出的新型可控视频生成技术

DragAnything简介

DragAnything 是由快手技术团队联合浙江大学和新加坡国立大学 Show Lab 研发的一种新型可控视频生成技术。它通过创新的实体表示方法,实现了对视频中任意对象(包括前景和背景)的精确运动控制。用户只需简单绘制轨迹,即可完成交互,无需复杂的掩码或深度图。DragAnything 的核心优势在于其用户友好的交互方式、多实体独立运动控制能力以及卓越的视频生成质量。它在多项性能指标上超越了现有方法,尤其在用户研究中,其运动控制能力获得了显著更高的用户投票支持。该技术为可控视频生成领域带来了新的突破,为未来视频创作提供了更强大的工具。

DragAnything:快手等推出的新型可控视频生成技术

DragAnything主要功能

  1. 实体级运动控制:通过提取视频中每个实体的潜在特征,实现对视频中任意对象的精确运动控制,包括前景和背景。
  2. 用户友好的交互:用户只需绘制轨迹即可完成交互,无需复杂的掩码或深度图,极大简化了操作流程。
  3. 多实体独立运动控制:支持同时对多个对象进行独立的运动控制,用户可以分别控制不同对象的运动轨迹。
  4. 背景运动控制:除了前景对象,DragAnything 还能够控制背景元素的运动,如云层、星空等。
  5. 相机运动控制:支持基本的相机运动控制,如放大、缩小、上下左右移动等。

DragAnything技术原理

  1. 实体语义表示提取:使用扩散模型的潜在特征来表示每个实体。通过实体掩码提取对应实体的嵌入向量,并将其插入到零矩阵中,形成最终的实体表示。
  2. 2D 高斯表示提取:通过轨迹点和半径生成 2D 高斯分布表示,使模型更关注实体的中心区域,增强对实体中心区域的关注。
  3. 轨迹控制:用户通过绘制轨迹来指定对象的运动路径。模型根据这些轨迹生成对应的视频,确保对象按照指定路径运动。
  4. 视频生成架构:基于 Stable Video Diffusion(SVD)架构,使用 3D U-Net 进行去噪过程,结合实体表示和 2D 高斯表示,实现空间和时间上的高效视频生成。
  5. 训练与推理:训练时,使用视频分割数据集和 Co-Tracker 跟踪实体的中心点轨迹,生成对应的实体表示和 2D 高斯表示。推理时,用户通过 SAM 选择需要控制的区域,并拖动区域内任意像素点来形成轨迹,模型根据轨迹生成对应的视频。
  6. 损失函数:使用均方误差(MSE)优化模型,结合实体掩码约束损失函数,使其仅在目标区域进行优化,确保生成视频的质量和运动控制的准确性。

DragAnything应用场景

  1. 视频内容创作:创作者可以轻松调整视频中对象的运动轨迹,快速生成具有特定动态效果的创意视频,如让物体按照特定路径移动或改变场景布局。
  2. 动画制作:在动画领域,DragAnything 可以快速生成物体或角色的运动路径,减少动画师手动绘制关键帧的工作量,提升制作效率。
  3. 影视特效:用于快速生成特效场景的动态预览,例如调整物体的运动轨迹或背景元素的动态变化,辅助特效团队进行创意探索。
  4. 广告视频制作:广告商可以利用该技术快速生成具有特定动态效果的产品展示视频,例如让产品在视频中按照特定轨迹移动,增强视觉吸引力。
  5. 教育与培训:在教育领域,可以生成具有动态演示效果的教学视频,例如让物体按照物理规律运动,帮助学生更好地理解复杂的概念。
  6. 游戏开发:用于快速生成游戏过场动画或场景动态效果,例如调整角色的运动轨迹或背景元素的动态变化,提升游戏的视觉表现力。

DragAnything项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...