VidSketch：从手绘草图和简单文本提示生成高质量的视频动画

0 80

VidSketch简介

VidSketch是由浙江大学计算机辅助设计与图形学国家重点实验室和浙江大学软件学院联合开发的一种创新性视频生成技术。该技术能够直接从手绘草图和简单文本提示生成高质量的视频动画，打破了普通用户与专业艺术家之间的技术壁垒。开发团队通过引入“基于层次的草图控制策略”和“时空注意力机制”，使VidSketch能够根据用户草图的抽象程度动态调整生成过程，并显著提升视频的时空一致性与美学质量。这一成果不仅降低了视频动画创作的门槛，还为创意表达和艺术创作提供了全新的可能性，展现了强大的通用性和生成能力。

VidSketch主要功能

从手绘草图生成视频动画：VidSketch能够直接将用户提供的手绘草图序列和简单的文本提示转化为高质量的视频动画，无需专业的动画制作技能或复杂的工具。
适应不同绘画水平的用户：通过“基于层次的草图控制策略”，VidSketch可以根据草图的抽象程度动态调整生成过程中的控制强度，从而适应不同绘画水平的用户需求。
保持时空一致性：VidSketch引入了“时空注意力机制”，确保生成的视频动画在帧与帧之间具有高度的时空一致性，避免了常见的视频生成问题，如画面撕裂或跳跃。
支持多种视觉风格：VidSketch可以生成多种视觉风格的视频动画，包括现实主义、像素艺术、奇幻风格和魔法风格等，满足用户多样化的审美需求。
简单易用：用户只需提供少量手绘草图和简单的文本描述，即可快速生成高质量的视频动画，大大降低了视频创作的门槛。

VidSketch技术原理

基于层次的草图控制策略
- 通过定量分析草图的连续性、连通性和纹理细节来评估草图的抽象程度。
- 根据抽象程度动态调整草图在视频生成中的控制强度，以适应不同用户绘画水平的差异。
时空注意力机制
- 在视频生成过程中，利用当前帧的查询（Q）表示与前几帧的关键/值（K/V）表示计算注意力。
- 通过增强帧与帧之间的关联性，显著提升视频的时空一致性和流畅性。
视频扩散模型（VDMs）
- 基于扩散模型的框架，将去噪过程扩展到时间域，以生成高质量的视频动画。
- 在训练阶段，对时空注意力和时间注意力模块进行微调，以优化生成视频的质量。
草图序列插值
- 当用户提供的草图数量较少时，通过线性插值生成中间帧，确保视频动画的平滑过渡。
文本提示与草图结合
- 在生成过程中，将用户提供的文本提示和草图信息整合到模型的条件输入中，确保生成的视频既符合文本描述，又与草图保持高度一致性。