LONG-LRM:1.3秒 内实现高质量大场景3D高斯重建

LONG-LRM简介

LONG-LRM是由俄勒冈州立大学和Adobe Research联合推出的一种创新3D高斯重建模型,它能够快速从大量输入图像中重建出大型场景的3D表示。该模型结合了最新的Mamba2块和传统变换器块,通过高效的令牌合并和高斯修剪技术,在保证渲染质量的同时显著提升了处理效率。LONG-LRM能在1.3秒内处理32个960×540分辨率的图像,相比传统方法在效率上实现了数量级的提升,为3D内容创建、虚拟现实和增强现实等领域带来了新的可能。

LONG-LRM:1.3秒 内实现高质量大场景3D高斯重建

LONG-LRM主要功能

  1. 大规模场景重建:LONG-LRM能够处理高达32个输入图像,这些图像可以覆盖宽广的视场,从而重建出大型3D场景。
  2. 高效率处理:该模型能在1.3秒内完成对高分辨率图像的重建,显著快于传统的优化方法,后者可能需要超过13分钟。
  3. 高质量渲染:LONG-LRM生成的3D场景渲染质量与基于优化的方法相当,有时甚至更优。
  4. 单次前馈步骤:与需要对每个场景独立优化的模型不同,LONG-LRM能够在单次前馈步骤中重建整个场景。

LONG-LRM技术原理

  1. 混合架构:结合了Mamba2块和传统的变换器块,这种混合架构允许处理比以往工作更多的令牌,同时保持全局上下文信息。
  2. 高效令牌合并:通过合并中间网络处理中的令牌来减少令牌数量,从而降低内存使用并提高训练速度。
  3. 高斯修剪:在渲染新视图之前对高斯参数进行修剪,以鼓励模型高效使用高斯参数,减少计算负载并提高渲染速度。
  4. 状态空间模型(SSMs):利用Mamba2块,这是一种状态空间模型,能够以线性复杂度处理长上下文推理,适合LONG-LRM中的密集重建任务。
  5. 双扫描策略:Mamba2块采用双向扫描策略处理令牌序列,先通过线性层计算状态参数,然后在令牌序列上进行正向和反向的SSM块处理,最后将两次扫描的输出令牌求和。
  6. 训练目标:使用渲染损失、深度正则化和不透明度正则化来优化模型,提高训练稳定性和推理效率,同时减少可见高斯的数量,从而提高模型的效率。

LONG-LRM应用场景

  1. 3D内容创建:LONG-LRM可以用于从多角度拍摄的照片中快速生成3D模型,适用于游戏设计、电影制作和虚拟展览等领域。
  2. 虚拟现实(VR):在虚拟现实应用中,LONG-LRM能够为用户创建逼真的3D环境,提供沉浸式体验,适用于虚拟旅游或教育训练。
  3. 增强现实(AR):LONG-LRM可以增强现实世界的物体,通过3D重建技术在真实场景中加入虚拟信息,适用于零售展示或导航系统。
  4. 自动驾驶:在自动驾驶领域,LONG-LRM能够用于实时重建周围环境的3D模型,帮助车辆更好地理解其周围环境,提高安全性。
  5. 机器人技术:机器人可以使用LONG-LRM来快速理解其工作空间的3D结构,这对于路径规划和物体操作等任务至关重要。
  6. 文化遗产保护:LONG-LRM可以用于数字化和重建文化遗产,创建高精度的3D档案,有助于文物的保护和研究。

LONG-LRM项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...