Prometheus：蚂蚁联合厦门大学等高校推出的3D感知潜在扩散模型

0 10

Prometheus简介

Prometheus是由浙江大学、厦门大学、蚂蚁集团和图宾根大学联合开发的3D感知潜在扩散模型，旨在实现从文本到3D场景的前馈生成。该模型巧妙地利用了大量2D数据和预训练的文本到图像生成模型，通过引入RGB-D潜在空间来解耦外观和几何信息，从而实现了高效且高保真的3D高斯生成。Prometheus在多个数据集上进行了训练，以确保其具有与Stable Diffusion相当的泛化能力。实验结果表明，Prometheus能够在秒级时间内生成与文本提示高度一致的3D场景，且在3D重建和文本到3D生成任务中均展现出优越的性能，为3D内容创作领域带来了新的突破。

Prometheus主要功能

文本到3D场景生成：Prometheus能够根据输入的文本描述，在几秒钟内生成对应的3D场景。这包括对象级和场景级的3D生成，适用于多种应用场景如AR/VR、游戏和模拟等。
高效的前馈3D生成：通过前馈方式生成3D高斯分布，避免了传统方法中耗时的优化过程，实现了高效的3D生成。
多视图一致性：Prometheus能够生成多视图一致的3D表示，确保从不同视角观察时的几何和纹理一致性。
高保真度和几何质量：通过引入RGB-D潜在空间，Prometheus能够解耦外观和几何信息，从而生成高保真度和高几何质量的3D场景。

Prometheus技术原理

基于2D先验的3D生成：
- Prometheus利用大量2D数据和预训练的文本到图像生成模型（如Stable Diffusion），通过最小调整实现3D生成。这种方法充分利用了2D生成模型的强大能力和丰富的2D数据资源。
RGB-D潜在空间：
- 在3D高斯生成过程中引入RGB-D潜在空间，解耦外观和几何信息，使得生成的3D高斯分布具有更好的保真度和几何质量。
两阶段训练：
- 第一阶段（GS-VAE训练）：
  - 训练一个3D高斯变分自编码器（GS-VAE），将多视图或单视图RGB-D图像编码为潜在表示，并解码为像素对齐的3D高斯分布。
  - 使用预训练的Stable Diffusion编码器对图像和深度图进行编码，并通过多视图变换器融合多视图信息。
- 第二阶段（MVLDM训练）：
  - 训练一个多视图潜在扩散模型（MVLDM），联合生成多视图RGB-D潜在代码，为解码3D高斯分布提供丰富的几何线索。
  - 基于连续时间去噪扩散过程，条件是文本提示和相机姿态。
采样策略：
- 通过迭代应用去噪过程，从随机采样的高斯噪声中恢复多视图潜在代码，并使用GS-VAE解码器解码为3D高斯场景。
- 使用分类器自由引导（CFG）和混合采样引导策略，提高采样质量和与条件的一致性。

Prometheus应用场景

虚拟现实（VR）和增强现实（AR）：
- 虚拟环境构建：快速生成逼真的3D场景，用于创建虚拟现实中的虚拟世界或增强现实中的虚拟对象，提升用户体验。
- 实时交互：根据用户输入的文本描述实时生成3D内容，增强虚拟环境的互动性和沉浸感。
游戏开发：
- 场景设计：快速生成游戏中的各种场景，如室内、室外、城市、自然环境等，提高开发效率。
- 角色和道具生成：根据文本描述生成游戏中的角色和道具，丰富游戏内容。
建筑设计：
- 概念设计：根据设计文本快速生成建筑的3D模型，帮助设计师快速验证和展示设计概念。
- 虚拟漫游：生成建筑内部和外部的3D场景，用于虚拟漫游和客户展示。
影视制作：
- 场景预览：快速生成电影或电视剧中的场景预览，帮助导演和制片人进行前期规划。
- 特效制作：生成复杂的3D特效，如自然景观、科幻场景等，提高特效制作的效率和质量。
教育和培训：
- 虚拟实验室：生成虚拟的实验环境和设备，用于教育和培训中的虚拟实验。
- 历史场景重现：根据历史描述生成古代建筑、历史事件等3D场景，增强学习的趣味性和直观性。
广告和营销：
- 产品展示：生成产品的3D模型和场景，用于广告和营销中的产品展示，提升产品的吸引力。
- 虚拟展厅：创建虚拟的展厅和展览，展示公司产品和服务，提升品牌形象。