GS-DiT:香港中文大学等推出的视频生成框架
GS-DiT简介
GS-DiT是由香港中文大学联合Avolution AI推出的视频生成框架。它通过高效的密集3D点跟踪技术构建伪4D高斯场,实现了对视频内容的4D控制,包括相机内参和外参编辑以及对象运动编辑。GS-DiT能够在不改变视频动态内容的前提下,根据不同的相机参数生成视频,解决了现有视频生成模型的重大局限。该框架无需多视角视频进行训练,可直接从常规单目视频学习,展现出强大的泛化能力和对复杂镜头技术的支持,为创意视频制作提供了有力的工具。

GS-DiT主要功能
-
多相机拍摄视频生成 :能够根据不同的相机轨迹渲染视频,生成从多个视角拍摄的同一动态内容的视频,满足多相机拍摄的需求。
-
4D视频控制 :支持对视频的4D内容进行控制,包括相机内参和外参的编辑,以及对象运动的编辑,可实现如变焦、物体运动修改等高级影视效果。
-
高质量视频生成 :生成的视频具有较高的质量,能够保留原始视频的动态内容和细节,同时根据指定的相机参数和编辑要求进行合理调整,呈现出自然、逼真的视觉效果。
GS-DiT技术原理
-
伪4D高斯场构建 :通过密集3D点跟踪技术,对输入视频中的参考帧估计其在后续帧中的密集3D点轨迹,直接从这些轨迹构建伪4D高斯场。高斯场中的每个像素对应一个高斯分布,其参数如颜色值从像素值中派生,不透明度等其他参数保持恒定。
-
高效密集3D点跟踪(D3D-PT) :采用两阶段方法估计密集3D点跟踪。第一阶段通过编码稀疏但更长时间的信息初始化3D点轨迹;第二阶段通过编码密集的成对信息迭代细化轨迹。利用RAFT网络和深度金字塔等技术,实现了对点轨迹、可见性和深度的准确估计和高效细化,大幅提升了3D点跟踪的速度和准确性。
-
预训练模型微调 :基于预训练的视频扩散变换器(DiT)模型进行微调。以从伪4D高斯场渲染的视频作为条件输入,通过3D VAE编码器将引导视频信息注入到DiT模型中,生成与原始输入视频相符的视频。微调过程中,模型学习如何根据渲染视频的指导生成高质量的视频,修复渲染视频中的伪影,连接时间引导信息和强大的视频先验知识。
GS-DiT应用场景
-
电影制作:在电影特效制作中,GS-DiT可以生成多角度的战斗场景,为导演提供更多镜头选择,丰富电影的视觉表现力。
-
广告创作:广告团队可利用其4D控制功能,轻松调整产品展示视频的相机角度和运动轨迹,突出产品特点,增强广告吸引力。
-
游戏开发:为游戏过场动画或实时渲染提供高质量的视频生成,根据游戏剧情需要快速生成不同视角的游戏场景视频,提升玩家沉浸感。
-
虚拟现实(VR)与增强现实(AR):在VR/AR内容创作中,生成与用户交互相匹配的动态视频,如根据用户的头部转动实时调整视频视角,增强虚拟体验的真实感。
-
体育赛事转播:对体育比赛视频进行处理,生成多角度的精彩瞬间回放,让观众从不同视角欣赏运动员的精彩表现,提高观赛体验。
-
在线教育:教育内容创作者可以生成多角度的教学视频,如化学实验、物理演示等,帮助学生从不同视角理解复杂的操作过程,提升学习效果。
GS-DiT项目入口
- GitHub代码库:https://wkbian.github.io/Projects/GS-DiT/
- arXiv研究论文:https://arxiv.org/pdf/2501.02690
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...