GenXD:新加坡国立大学&微软推出的多视角3D和4D场景生成模型
GenXD简介
GenXD是由新加坡国立大学和微软公司的研究团队联合开发的一个统一模型,它能够从任意数量的条件图像中高效生成高质量的3D和4D场景。该模型利用日常生活中常见的相机和物体运动,通过创新的数据整理流程获取大规模实时4D数据,并引入了多视角-时间模块来分离和融合多视角和时间信息。GenXD采用了掩码潜在条件扩散模型,支持各种条件视图,能够生成与相机轨迹一致的视频和一致的3D视图。它在多个真实世界和合成数据集上展现了出色的有效性和多功能性,且无需修改即可支持多种应用,数据集和代码将公开提供。
GenXD主要功能
- 3D和4D场景生成: GenXD能够生成静态的3D场景和包含动态物体的4D场景,支持从单一或多视图图像生成。
- 多视角一致性: 该模型能够生成在不同视角下保持一致性的3D视图,这些视图可以进一步提升为3D表示。
- 相机轨迹跟随: GenXD能够根据给定的相机轨迹生成视频,确保生成的内容在视觉上一致并遵循相机的运动路径。
- 条件视图支持: 支持任意数量的输入视图,无需修改网络结构,通过掩码潜在条件实现。
- 大规模数据集支持: 利用大规模真实世界的4D数据集CamVid-30K进行训练,提高生成质量。
GenXD技术原理
- 数据整理流程: 开发团队提出了一个数据整理流程,从视频中提取相机姿态和物体运动信息,以创建大规模的4D数据集。
- 多视角-时间模块: 引入多视角-时间ResBlocks和Transformer,用于分离和融合多视角和时间信息,实现3D和4D数据的联合学习。
- 掩码潜在条件扩散模型: 采用潜在扩散模型(LDM)生成图像,并通过掩码潜在条件来支持任意数量的输入视图。
- α-fusing策略: 通过可学习的融合权重α,GenXD能够在4D生成中保留多视角信息,同时学习从4D数据中获取的时间信息。
- 运动强度估计: 利用运动强度来估计物体在视频中的真实运动,这有助于在生成过程中控制物体运动的强度。
- 3D表示优化: GenXD能够使用生成的图像来优化3D表示,如3D高斯溅射(3D-GS)和Zip-NeRF,以实现高质量的3D重建。
- 联合3D和4D训练: 将3D和4D数据结合起来进行模型训练,使得GenXD能够在单一模型中处理3D和4D生成任务
GenXD应用场景
- 视频游戏开发: 利用GenXD生成动态3D游戏环境和角色,提供更加丰富和真实的游戏体验。
- 电影和电视视觉效果: 制作高质量的3D动画和特效,用于电影和电视节目的视觉呈现。
- 虚拟现实(VR)和增强现实(AR): 创建沉浸式的VR和AR内容,提供逼真的3D场景和动态交互。
- 3D打印和制造: 根据GenXD生成的3D模型,快速原型设计和制造复杂结构的物体。
- 建筑和工程可视化: 为建筑项目生成详细的3D模型和动画,帮助设计师和工程师更好地展示和评估设计方案。
- 电子商务和产品展示: 为在线商店生成高质量的产品3D视图,提供虚拟展示和用户体验。
GenXD项目入口
- 项目主页:https://gen-x-d.github.io/
- GitHub代码库:https://github.com/HeliosZhao/GenXD
- arXiv技术论文:https://arxiv.org/pdf/2411.02319
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...