Free4D：华中科技大学推出的4D场景生成框架

0 40

Free4D简介

Free4D是由华中科技大学、南洋理工大学S-Lab以及大湾区大学的研究团队共同开发的一种新型4D场景生成框架。它能够从单张图像生成具有时空一致性的4D场景，无需繁琐的调整。该框架通过提取预训练基础模型来实现一致的4D场景表示，具有高效性和泛化性。Free4D的核心技术包括4D几何结构初始化、时空一致的多视角视频生成以及一致的4D表示提升。它在单张图像基础上的4D场景生成方面取得了显著进展，能够生成具有逼真外观和真实运动的场景，为实现逼真的数字体验提供了有力支持。

Free4D主要功能

高效生成4D场景：从单张图像或文本输入生成高质量的4D场景，支持实时、可控的渲染。
时空一致性：生成的4D场景在空间和时间上保持高度一致，避免了常见的不连贯问题。
动态场景生成：能够生成具有复杂动态背景和纹理的场景，支持多样化的运动和交互。
无需调整：无需对模型进行微调或依赖大规模4D数据集，降低了训练成本和资源消耗。
实时渲染：支持实时渲染，适用于需要快速生成和交互的应用场景，如虚拟现实和增强现实。

Free4D技术原理

4D几何结构初始化：使用动态场景重建方法（如MonST3R）从单张图像生成的参考视频中提取4D几何结构，通过点云表示场景的几何信息，并采用逐步聚合策略优化静态点云，确保跨帧一致性。
时空一致的多视角视频生成：利用点云引导的扩散模型（如ViewCrafter）生成多视角视频，并通过自适应分类器自由引导（CFG）和点云引导去噪策略增强空间一致性，同时采用参考潜在替换策略提升时间连贯性。
一致的4D表示提升：通过粗到细的训练策略和基于调制的细化方法，将生成的多视角视频信息整合到4D表示中，减少不一致性，优化4D场景的最终表示。
基于调制的细化：在4D表示的优化过程中，使用生成的多视角视频作为调制信号，引导去噪过程，确保生成的4D场景在不同视角和时间点上保持一致性和高质量。
高效的训练策略：采用分阶段训练方法，先利用与输入图像约束较高的视图和时间戳训练粗略的4D表示，再通过精细阶段的优化提升整体质量和一致性。