Prometheus:蚂蚁联合厦门大学等高校推出的3D感知潜在扩散模型

Prometheus简介

Prometheus是由浙江大学、厦门大学、蚂蚁集团和图宾根大学联合开发的3D感知潜在扩散模型,旨在实现从文本到3D场景的前馈生成。该模型巧妙地利用了大量2D数据和预训练的文本到图像生成模型,通过引入RGB-D潜在空间来解耦外观和几何信息,从而实现了高效且高保真的3D高斯生成。Prometheus在多个数据集上进行了训练,以确保其具有与Stable Diffusion相当的泛化能力。实验结果表明,Prometheus能够在秒级时间内生成与文本提示高度一致的3D场景,且在3D重建和文本到3D生成任务中均展现出优越的性能,为3D内容创作领域带来了新的突破。

Prometheus:蚂蚁联合厦门大学等高校推出的3D感知潜在扩散模型

Prometheus主要功能

  1. 文本到3D场景生成:Prometheus能够根据输入的文本描述,在几秒钟内生成对应的3D场景。这包括对象级和场景级的3D生成,适用于多种应用场景如AR/VR、游戏和模拟等。
  2. 高效的前馈3D生成:通过前馈方式生成3D高斯分布,避免了传统方法中耗时的优化过程,实现了高效的3D生成。
  3. 多视图一致性:Prometheus能够生成多视图一致的3D表示,确保从不同视角观察时的几何和纹理一致性。
  4. 高保真度和几何质量:通过引入RGB-D潜在空间,Prometheus能够解耦外观和几何信息,从而生成高保真度和高几何质量的3D场景。

Prometheus技术原理

  1. 基于2D先验的3D生成
    • Prometheus利用大量2D数据和预训练的文本到图像生成模型(如Stable Diffusion),通过最小调整实现3D生成。这种方法充分利用了2D生成模型的强大能力和丰富的2D数据资源。
  2. RGB-D潜在空间
    • 在3D高斯生成过程中引入RGB-D潜在空间,解耦外观和几何信息,使得生成的3D高斯分布具有更好的保真度和几何质量。
  3. 两阶段训练
    • 第一阶段(GS-VAE训练)
      • 训练一个3D高斯变分自编码器(GS-VAE),将多视图或单视图RGB-D图像编码为潜在表示,并解码为像素对齐的3D高斯分布。
      • 使用预训练的Stable Diffusion编码器对图像和深度图进行编码,并通过多视图变换器融合多视图信息。
    • 第二阶段(MVLDM训练)
      • 训练一个多视图潜在扩散模型(MVLDM),联合生成多视图RGB-D潜在代码,为解码3D高斯分布提供丰富的几何线索。
      • 基于连续时间去噪扩散过程,条件是文本提示和相机姿态。
  4. 采样策略
    • 通过迭代应用去噪过程,从随机采样的高斯噪声中恢复多视图潜在代码,并使用GS-VAE解码器解码为3D高斯场景。
    • 使用分类器自由引导(CFG)和混合采样引导策略,提高采样质量和与条件的一致性。

Prometheus应用场景

  1. 虚拟现实(VR)和增强现实(AR)
    • 虚拟环境构建:快速生成逼真的3D场景,用于创建虚拟现实中的虚拟世界或增强现实中的虚拟对象,提升用户体验。
    • 实时交互:根据用户输入的文本描述实时生成3D内容,增强虚拟环境的互动性和沉浸感。
  2. 游戏开发
    • 场景设计:快速生成游戏中的各种场景,如室内、室外、城市、自然环境等,提高开发效率。
    • 角色和道具生成:根据文本描述生成游戏中的角色和道具,丰富游戏内容。
  3. 建筑设计
    • 概念设计:根据设计文本快速生成建筑的3D模型,帮助设计师快速验证和展示设计概念。
    • 虚拟漫游:生成建筑内部和外部的3D场景,用于虚拟漫游和客户展示。
  4. 影视制作
    • 场景预览:快速生成电影或电视剧中的场景预览,帮助导演和制片人进行前期规划。
    • 特效制作:生成复杂的3D特效,如自然景观、科幻场景等,提高特效制作的效率和质量。
  5. 教育和培训
    • 虚拟实验室:生成虚拟的实验环境和设备,用于教育和培训中的虚拟实验。
    • 历史场景重现:根据历史描述生成古代建筑、历史事件等3D场景,增强学习的趣味性和直观性。
  6. 广告和营销
    • 产品展示:生成产品的3D模型和场景,用于广告和营销中的产品展示,提升产品的吸引力。
    • 虚拟展厅:创建虚拟的展厅和展览,展示公司产品和服务,提升品牌形象。

Prometheus项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...