SPAR3D:Stability A等推出的单视图3D物体重建模型

SPAR3D简介

SPAR3D是由Stability AI和UIUC的研究团队共同开发的一种先进的单视图3D物体重建模型。该技术能够在0.7秒内从单张图像快速重建出高质量的3D网格模型,并支持用户的交互式编辑。SPAR3D采用创新的两阶段方法,首先利用轻量级的点扩散模型生成稀疏的3D点云,然后结合采样的点云和输入图像创建出细节丰富的网格。这种方法不仅结合了回归模型和生成模型的优势,还通过使用点云作为中间表示,实现了高效的计算和高质量的输出。在多个数据集上的评估显示,SPAR3D在性能上超越了以往的最先进方法,为单视图3D重建领域带来了新的突破。

SPAR3D:Stability A等推出的单视图3D物体重建模型

SPAR3D主要功能

  • 高效3D重建:能够从单张图像快速重建出高质量的3D网格模型,重建速度达到0.7秒/张,相比其他3D或多视图扩散模型,效率显著提升,可满足实时性要求较高的应用场景。
  • 支持用户编辑:借助点云作为中间表示,用户可以轻松对生成的3D网格进行交互式编辑。例如,通过在低分辨率点云上进行局部修改,如删除、复制、拉伸或重新上色点等操作,进而快速生成调整后的网格,编辑过程高效且直观。
  • 强大的泛化能力:不仅在标准数据集上表现出色,还能对野外图像和AI生成图像进行准确的几何结构重建,并生成具有良好纹理的3D网格,展现出强大的泛化性能,拓宽了其应用范围。

SPAR3D技术原理

  • 两阶段模型设计
    • 点采样阶段:使用基于DDPM的点扩散模型,根据输入图像生成稀疏的3D点云。该阶段包含前向过程(向原始点云添加噪声)和后向过程(去噪器学习去除噪声),通过迭代采样快速生成低分辨率点云,为后续网格化阶段提供基础。
    • 网格化阶段:以采样的点云和输入图像为条件,利用大型Triplane Transformer生成高分辨率的Triplane特征。然后通过查询Triplane特征来重建物体的几何形状、纹理和照明信息,并借助可微渲染器进行渲染,以监督模型学习,减少纹理中的烘焙光照伪影,实现高质量的网格化输出。
  • 关键模块与技术
    • Transformer去噪器:在点采样阶段,将噪声点云映射为点标记,同时使用DINOv2编码输入图像作为条件标记,两者拼接后输入Transformer,预测每个点添加的噪声,从而实现点云的去噪生成。
    • Triplane Transformer:由点云编码器、图像编码器和Transformer主干网络组成。点云编码器将点云编码为点标记,图像编码器(DINOv2)生成局部图像嵌入,Transformer主干网络则基于这些编码信息预测Triplane特征,为网格化提供丰富的细节信息。
    • 可微渲染器:在网格化阶段,根据预测的环境图、PBR材质和几何表面进行图像渲染。采用Monte Carlo Integration和Multiple Importance Sampling (MIS)减少积分方差,同时实现屏幕空间的可见性测试,以改善阴影建模,使渲染结果更贴近真实光照效果,进而通过渲染损失监督模型训练,提升重建质量。

SPAR3D应用场景

  1. 增强现实(AR):快速将现实场景中的物体转化为3D模型,增强虚拟信息与现实环境的融合,提升用户体验。
  2. 虚拟现实(VR):为虚拟世界创建逼真的3D物体和场景,丰富虚拟环境的内容,提高沉浸感。
  3. 游戏开发:简化游戏场景和角色的3D建模流程,加速游戏开发进度,同时允许美术师对生成的模型进行快速调整和优化。
  4. 文物保护:对文物进行高精度3D重建,便于文物的数字化保存、展示和修复研究,减少对文物的直接接触和潜在损害。
  5. 电影特效制作:辅助创建逼真的3D场景和道具模型,提高特效制作效率和质量,缩短电影后期制作周期。
  6. 工业设计:快速生成产品原型的3D模型,方便设计师进行设计验证和修改,加速产品从概念到实际产品的转化过程。

SPAR3D项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...