GRM：斯坦福大学等开发的一个创新的3D重建和生成模型

0 10

GRM项目介绍

GRM（Gaussian Reconstruction Model）是由斯坦福大学、香港科技大学、上海人工智能实验室、浙江大学和蚂蚁集团的研究人员共同开发的一个创新的3D重建和生成模型。该模型能够在大约0.1秒内从稀疏视图图像中恢复出3D资产，展示了在3D重建质量和效率方面的显著优势。GRM采用了一种前馈变换器架构，有效地利用多视图信息，将输入像素转换为像素对齐的高斯分布，进而创建出代表场景的密集分布的3D高斯集合。此外，GRM还展示了其在生成任务中的潜力，例如通过与现有的多视图扩散模型结合，实现从文本到3D和从图像到3D的生成。这一突破性的研究进展不仅提高了3D内容创作的效率，还为机器人、游戏、建筑等多个领域提供了高质量的3D资产生成能力。

GRM主要功能

❶高效的3D重建：GRM能够从少量视图的2D图像中快速重建出3D模型，这一过程大约只需要0.1秒。
❷3D资产生成：除了重建现有对象，GRM还能够通过文本描述或单张图片生成全新的3D资产，这为3D内容创作提供了强大的支持。
❸与现有工具的协同：GRM可以与现有的多视图生成工具和2D分割工具等协同工作，增强了其在3D重建和生成任务中的灵活性和应用范围。
❹高质量的输出：GRM在重建和生成3D模型时，能够保持高分辨率和高频细节，提供高质量的3D视觉输出。
❺先进的3D表示：GRM使用3D高斯分布来表示3D场景，这种表示方法比传统的体积渲染方法更加高效和可扩展。
❻支持多种3D任务：GRM不仅能够处理3D重建，还能够支持文本到3D和图像到3D的转换，这使得它在多种3D视觉任务中都具有潜在的应用价值。

GRM应用场景

❶游戏开发：在游戏设计中，GRM可以快速生成或重建3D模型，加速游戏世界和角色的开发过程。
❷电影和动画制作：在影视行业，GRM能够用于创建高质量的3D场景和动画，提高视觉效果的制作效率。
❸虚拟现实（VR）和增强现实（AR）：GRM可以为VR和AR应用提供逼真的3D环境和对象，提升用户的沉浸式体验。
❹建筑可视化：在建筑设计领域，GRM可以帮助设计师快速从概念图或描述中生成3D建筑模型，进行更直观的展示和规划。
❺机器人导航和模拟：GRM可以用于生成3D环境模型，辅助机器人进行路径规划和场景理解，提高机器人在复杂环境中的导航能力。

GRM技术原理

❶前馈变换器架构：GRM采用了一种基于变换器（transformer）的前馈网络，用于有效地整合多视图信息。
❷像素对齐的3D高斯：模型将输入图像的像素转换成与像素对齐的3D高斯分布，这种表示方法能够更精细地捕捉场景的几何和外观细节。
❸变换器编码器：使用变换器编码器处理输入图像，通过自注意力机制实现跨视图的信息交换，以确保不同输入视图之间的一致性。
❹变换器上采样器：引入了一种基于变换器的上采样器，利用窗口化自注意力层来有效地传递非局部线索，这对于重建高频细节至关重要。
❺3D高斯散射：通过可微分光栅化器将3D高斯散射到3D空间中，实现实时渲染。
❻训练目标：在训练阶段，模型使用多个视图来指导重建，并采用特定的损失函数来优化模型参数，包括图像损失和掩码损失。