See3D:北京人工智能学院推出的3D内容创建模型
See3D简介
See3D是由北京人工智能研究院(BAAI)开发的视觉条件多视图扩散模型,它能够利用大规模互联网视频数据进行训练,实现无需姿势标注的开放世界3D内容创建。该模型通过观察视频内容自动获取3D知识,支持从单视图到3D、稀疏视图到3D以及3D编辑等多种3D生成任务,展现了在成本效益和可扩展性方面的优势。
See3D主要功能
- 3D内容创建: See3D能够从互联网视频数据中学习3D知识,实现从2D图像到3D模型的转换。
- 单视图到3D(Sparse-view-to-3D): 模型可以将单个视角的图像扩展为完整的3D表示。
- 稀疏视图到3D重建: 给定少量视角的图像,See3D能够重建出3D场景。
- 3D编辑: 模型支持对3D内容进行编辑,如添加、替换或修改场景中的物体。
- 无需姿势标注: 能够在没有相机姿势信息的情况下学习3D先验,降低了数据标注的成本。
See3D技术原理
- 数据策展流程(WebVi3D数据集):
- 通过自动化流程筛选出多视图一致性和观察不足的视频数据,构建了一个大规模、高质量的多视图图像数据集。
- 视觉条件多视图扩散模型:
- 利用时间依赖噪声生成的2D视觉信号作为条件输入,无需3D姿势标注即可训练模型。
- 基于变形的3D生成框架:
- 将See3D集成到一个迭代细化新视图几何形状的变形基流程中,实现高保真度的3D生成。
- 时间依赖的视觉条件:
- 通过在视频数据中添加随机掩码和时间依赖噪声来构建视觉条件,以指导扩散模型生成与参考视图一致的3D内容。
- 模型架构:
- 基于2D扩散模型,通过3D自注意力机制连接多图像的潜在表示,并引入交叉注意力机制以增强多视图一致性。
- 训练配置:
- 使用渐进式训练策略,从低分辨率开始逐步提高到高分辨率,并在不同阶段调整批次大小和学习率。
- 零样本和开放世界生成能力:
- 模型在没有见过的数据上展现出良好的泛化能力,能够在开放世界中生成3D内容。
See3D应用场景
- 虚拟现实(VR)和增强现实(AR): See3D可以用于创建虚拟环境和场景,增强用户在VR和AR应用中的沉浸感和交互体验。
- 游戏开发: 通过从现有视频生成3D模型,See3D有助于快速构建游戏环境和角色,提高游戏开发的效率。
- 电影和娱乐: 在电影制作中,See3D可以用于生成特效场景的3D模型,减少实际拍摄和后期制作的成本和时间。
- 模拟和训练: See3D可以生成逼真的3D环境,用于军事、航空等领域的模拟训练,提高训练的真实性。
- 教育和科研: 在教育领域,See3D能够将复杂的科学概念或历史场景转化为3D模型,使学习更加直观和生动。
- 建筑和城市规划: See3D可以从视频资料中重建城市景观和建筑结构,辅助城市规划和建筑设计的决策过程。
See3D项目入口
- 项目主页:https://vision.baai.ac.cn/see3d
- Github仓库:https://github.com/baaivision/See3D
- arXiv技术论文:https://arxiv.org/pdf/2412.06699
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...