Follow-Your-Click：可生成局部动画的图像到视频模型

0 90

Follow-Your-Click项目介绍

“Follow-Your-Click” 是一款由腾讯、清华大学及香港科技大学联合开发的图像到视频生成模型。该模型的主要特点是可以通过用户的点击和简短的动作提示生成局部图像动画，实现用户对图像特定区域的精确控制，使得原本静态的图像区域能够动起来，一键转换成视频

Follow-Your-Click主要功能

❶局部动画化：用户可以通过点击图像中的特定区域来选择想要动画化的部分，而其他区域将保持静态。
❷简短提示响应：用户只需要提供一个简短的动作提示，比如一个动词或短语，系统就能够理解并生成相应的动画效果。
❸高质量的视频生成：通过技术如第一帧掩蔽策略和运动增强模块，提高生成视频的质量。
❹精确的运动控制：基于光流的运动幅度控制允许用户更精确地控制动画中对象的运动速度。
❺用户友好的交互：简化了用户与图像动画化系统之间的交互，使其更加直观和易于使用。
❻多区域动画：支持对图像中的多个区域进行动画化，每个区域可以响应不同的简短提示。

Follow-Your-Click应用场景

❶电影和视频制作：可以用来生成特效场景中的特定动画，或者为电影中的静态图像添加动态元素。
❷广告业：通过将产品图像动态化，可以创造更吸引人的广告，增加用户的参与度和兴趣。
❸社交媒体：用户可以为自己的社交媒体内容添加动态效果，使帖子更加生动有趣。
❹游戏开发：在游戏设计中，可以根据玩家的交互实时生成动画，提供更加丰富的游戏体验。
❺教育和培训：可以用来创建教育内容，如模拟实验或历史事件的动态再现。
❻艺术创作：艺术家和设计师可以使用这项技术来创作新颖的视觉艺术作品。
❼个性化内容：为用户提供个性化的动态图像内容，如根据用户的照片生成动态表情或动画。
❽电子商务：在线商店可以利用这项技术展示产品的动态效果，提高产品的吸引力。
❾数据可视化：将静态的数据图表转换为动态演示，使信息更易于理解和记忆。

Follow-Your-Click技术原理

❶用户点击和简短提示：用户通过在图像上的点击来指定想要动画化的区域，并提供一个简短的动作提示来描述期望的动作。
❷第一帧掩蔽策略：这是一种训练技术，通过在输入图像的潜在表示中随机掩蔽一部分，来增强模型对时间相关性的理解，从而显著提高视频生成质量。
❸运动增强模块：该模块通过一个新的交叉注意力层来增强模型对动作提示的响应能力。它利用一个特别构建的简短动作提示数据集，该数据集通过大型语言模型（LLM）筛选和注释视频标题来构建，强调人类情感、动作和对象的常见运动。
❹基于光流的运动幅度控制：传统的动作强度控制依赖于每秒帧数（FPS）的调整。”Follow-Your-Click” 引入了一种新的方法，使用光流的大小来控制动作强度，这允许更精确地控制单个对象的动作速度。
❺潜在扩散模型：作为生成模型的主干，LDM在潜在空间内重新构建扩散和去噪过程，通过逐步添加高斯噪声到潜在代码中来生成图像。
❻视频潜在扩散模型：这是LDM的视频版本，通过在VDM中插入时间运动模块来捕获视频帧之间的时间依赖性。
❼条件掩蔽自动编码器：使用CMA将用户点击转换为二进制区域掩蔽，这些掩蔽作为网络的条件之一。
训练和推理：在训练阶段，模型学习如何根据用户的点击和简短提示生成动画。在推理阶段，模型使用这些信息来生成指定区域的动画，同时保持图像其余部分的静态。
❽消融研究：通过一系列消融实验来评估不同组件对整体性能的贡献，如掩蔽比率、运动增强模块和简短提示数据集的影响。
❾多区域动画和精确运动控制：该方法支持通过不同简短提示实现多区域动画，并可以与控制信号（如人类骨架）集成，以实现更细粒度的运动控制。