DaS：将简单的动画网格转换成视觉上丰富且高质量的视频

0 30

Diffusion as Shader简介

Diffusion as Shader（DaS）是由香港科技大学、浙江大学、武汉大学、南洋理工大学、新加坡国立大学、德克萨斯A&M大学等高校和研究机构组成的联合开发团队所提出的一种创新的3D感知视频扩散方法。该方法通过利用3D跟踪视频作为控制输入，使视频扩散过程具备了3D感知能力，从而能够实现多种视频控制任务，如网格到视频生成、运动转移、相机控制和对象操作等。DaS的关键优势在于其能够通过简单操纵3D跟踪视频来实现广泛的视频控制，并且显著提高了生成视频的时间一致性。此外，DaS在数据效率方面表现出色，仅需少量数据和有限的计算资源即可实现强大的控制能力，为视频生成领域带来了新的可能性和广阔的应用前景。

Diffusion as Shader主要功能

网格到视频生成：能够将简单的动画网格转换成视觉上丰富且高质量的视频，为3D模型和动画创作提供便捷高效的视频化手段.
运动转移：可以将一个视频中的运动模式转移到另一个视频中，同时保留目标视频的新风格或内容，实现视频运动的精确复制和风格化表达.
相机控制：支持对生成视频中的相机运动进行精确控制，包括定制相机轨迹和视角，增强视频的真实感和用户交互性.
对象操作：允许对视频中的特定对象进行灵活的操作，如移动、旋转等，实现对象的精确控制和逼真呈现，适用于各种图像到视频的生成场景.

Diffusion as Shader技术原理

3D感知视频扩散：不同于传统基于2D控制信号的方法，DaS采用3D跟踪视频作为控制输入，使视频扩散过程具备3D感知能力，从而能够更准确地理解和生成视频内容.
3D跟踪视频生成：通过记录3D点的运动轨迹来创建3D跟踪视频，这些3D点的颜色由其在第一帧中的坐标决定，保持在不同帧中颜色一致，以表示视频的底层3D运动.
条件注入与扩散模型结合：将3D跟踪视频编码为潜在向量，通过可训练的条件DiT模块处理，将条件特征注入到去噪过程中，与扩散模型相结合，实现对视频生成的精确控制.
统一架构下的多样化控制：在一个统一的架构下，DaS能够支持多种视频控制任务，通过简单操纵3D跟踪视频来实现不同的控制效果，如网格动画、运动转移、相机运动和对象操作等，展现出强大的灵活性和适应性.
时间一致性增强：3D跟踪视频能够有效关联视频的不同帧，确保相同3D点在不同帧中保持一致的外观，从而显著提高生成视频的时间连贯性和一致性，即使在3D区域暂时消失和重新出现的情况下也能保持外观一致性.

Diffusion as Shader应用场景

影视制作：在后期制作中，利用DaS可以快速生成符合剧情需求的逼真视频片段，如特效场景的动态背景、角色动作的动画表现等，提高制作效率和视觉效果.
游戏开发：为游戏中的角色动作、场景变换等生成高质量的视频素材，增强游戏的沉浸感和真实感，同时简化动画制作流程，降低开发成本.
虚拟现实（VR）：在VR体验中，DaS能够根据用户的交互动作实时生成匹配的视频内容，如虚拟角色的动态反应、虚拟环境的实时变化等，提升用户的沉浸式体验.
广告创意：为广告制作提供创新的视频生成解决方案，能够根据广告主题和创意需求，快速生成具有吸引力的动态视频广告，如产品展示动画、品牌故事演绎等.
社交媒体内容创作：帮助内容创作者轻松制作个性化的动态视频，如将静态图片转换为有趣的动画视频、创作具有特定风格和效果的短视频等，丰富社交媒体的内容形式.
教育与培训：在教育领域，DaS可以用于制作教学视频，如将复杂的科学概念或实验过程通过动画视频的形式直观展现，提高学生的学习兴趣和理解效果；在培训领域，生成模拟操作视频，辅助员工培训和技能学习.