DynamicCity:卡内基梅隆大学等推出的4D动态场景生成框架

DynamicCity简介

DynamicCity是由上海人工智能实验室联合卡内基梅隆大学、新加坡国立大学和南洋理工大学S-Lab团队共同开发的4D LiDAR场景生成框架。该框架专注于生成大规模、高质量且动态的LiDAR场景,能够捕捉真实世界驾驶环境中随时间演变的动态特性。DynamicCity通过创新的变分自编码器(VAE)和基于扩散变换器(DiT)的模型,实现了从紧凑的HexPlane表示中高效重建和生成4D场景。它不仅在重建和生成任务上显著优于现有方法,还支持多种下游应用,如轨迹引导、命令驱动的场景生成和动态场景修复等。DynamicCity的开发为自动驾驶、机器人技术以及虚拟现实等领域提供了强大的工具,推动了动态场景生成技术的发展。

DynamicCity:卡内基梅隆大学等推出的4D动态场景生成框架

DynamicCity主要功能

  1. 大规模4D LiDAR场景生成:DynamicCity能够生成大规模、高质量的4D LiDAR场景,捕捉真实世界驾驶环境中随时间演变的动态特性。
  2. 多种下游应用支持:支持轨迹引导、命令驱动的场景生成、布局条件生成和动态场景修复等多种应用。
  3. 高效4D表示和重建:通过HexPlane表示和扩展与压缩策略(ESS),实现高效的4D场景重建。
  4. 条件生成:支持通过条件注入实现多种4D生成应用,如命令驱动和轨迹引导的生成。
  5. 动态场景修复:能够对动态场景进行修复和编辑,生成合理的场景变化。

DynamicCity技术原理

  1. 变分自编码器(VAE)
    • HexPlane表示:将4D LiDAR场景编码为六个2D特征图(HexPlane),包括空间特征平面和时空特征平面。
    • 投影模块(Projection Module):使用基于变压器的操作将4D特征压缩为2D特征图,显著提高HexPlane的拟合质量。
    • 扩展与压缩策略(ESS):并行重建3D特征体积,提高训练效率和重建精度。
  2. 扩散变换器(DiT)
    • HexPlane生成:使用DiT框架生成HexPlane,实现4D LiDAR场景的生成。
    • 填充展开操作(Padded Rollout Operation, PRO):将六个特征平面重新组织为一个正方形2D特征图,以便更好地建模空间和时间关系。
    • 条件注入:通过Classifier-Free Guidance(CFG)实现条件生成,支持多种条件如命令、轨迹和布局等。
  3. 实验与评估
    • 数据集:使用CarlaSC、Occ3D-Waymo和Occ3D-nuScenes数据集进行训练和评估。
    • 评估指标:使用mIoU评估VAE的重建结果,使用Inception Score(IS)、FID、KID、Precision和Recall评估DiT的生成结果。

DynamicCity应用场景

  1. 自动驾驶仿真与测试:生成多样化的动态交通场景,用于自动驾驶系统的仿真测试,提升系统的鲁棒性和安全性。
  2. 虚拟现实与增强现实:创建逼真的3D动态环境,用于虚拟现实(VR)和增强现实(AR)应用,如驾驶培训、城市规划展示等。
  3. 智能交通系统:模拟复杂的城市交通场景,帮助优化交通流量管理和智能交通系统的设计。
  4. 机器人导航与环境感知:为机器人提供动态环境的模拟数据,用于导航、避障和环境感知算法的开发与测试。
  5. 城市规划与建筑设计:生成大规模的动态城市场景,辅助城市规划和建筑设计,展示未来城市的发展和变化。
  6. 游戏开发与影视制作:为游戏开发和影视特效提供逼真的动态场景,提升视觉效果和用户体验。

DynamicCity项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...