Stable Virtual Camera：Stability AI推出的单图秒变 3D 视频模型

0 80

Stable Virtual Camera简介

Stable Virtual Camera（简称SEVA）是由Stability AI团队开发的一种先进的扩散模型，专门用于生成任意数量输入视图和目标相机下的新视图。该模型通过创新的模型设计、优化的训练策略和灵活的采样方法，能够生成高质量、时间连贯的视频内容，支持从稀疏到半密集视图的多样化输入配置。SEVA无需依赖显式的3D表示，即可实现3D一致的视图合成，显著简化了新视图合成的流程，并在多种任务中展现出卓越的泛化能力，为沉浸式3D体验和内容创作提供了强大的技术支持。

Stable Virtual Camera：Stability AI推出的单图秒变 3D 视频模型

Stable Virtual Camera主要功能

生成新视图：能够根据任意数量的输入视图和目标相机参数，生成高质量的3D一致的新视图。
支持多种输入配置：既可以处理稀疏视图（如单视图或少量视图），也可以处理半密集视图（如几十个视图），适用于不同的场景和需求。
时间平滑性：生成的视频内容具有时间连贯性，能够实现无缝的视图过渡和循环闭合，适合创建流畅的视频序列。
灵活的相机控制：用户可以指定任意的相机轨迹，包括复杂的运动路径（如螺旋、缩放、平移等），模型能够准确地生成对应的视图。
无需3D重建：无需依赖显式的3D表示或重建步骤，直接从输入视图生成目标视图，简化了视图合成的流程。

Stable Virtual Camera技术原理

扩散模型基础：基于扩散模型的框架，通过逐步去噪的过程生成目标视图。扩散模型能够学习输入视图和目标视图之间的复杂映射关系，并在生成过程中考虑3D一致性和时间平滑性。
无显式3D表示：避免了显式的3D表示（如点云、网格或体积表示），直接在2D图像空间中进行视图合成。这使得模型能够继承预训练2D模型的强大先验，同时减少了对3D重建步骤的依赖。
两阶段训练策略：采用两阶段训练方法，先以较小的上下文窗口长度进行训练，然后逐渐扩展到更大的窗口长度。这种策略有助于模型更好地泛化到不同长度的视图序列。
两步采样方法：在生成过程中，采用两步采样策略。首先生成锚点视图，然后根据锚点视图生成目标视图。这种方法能够确保生成视图的3D一致性和时间平滑性，尤其是在处理长轨迹视图合成时。
条件输入和归一化：通过Plücker嵌入和自适应层归一化处理相机条件，同时注入CLIP图像嵌入以提供高级语义信息。这些条件输入有助于模型更好地理解输入视图和目标视图之间的关系。
灵活的上下文窗口扩展：在测试时，模型能够零样本地扩展上下文窗口长度，以适应不同数量的输入视图和目标视图。这种灵活性使得SEVA能够处理从单视图到半密集视图的多种输入配置。