TRELLIS:微软联合清华大学等高校推出的高效3D生成模型
TRELLIS简介
TRELLIS是一种创新的3D生成模型,由清华大学、中国科学技术大学和微软研究院的联合研究团队开发。该模型以其Structured LATent(SLAT)表示为核心,能够将3D资产解码成多种输出格式,包括辐射场、3D高斯和网格。TRELLIS通过结合稀疏3D网格和多视图视觉特征,实现了对3D资产结构和外观信息的全面捕捉,支持从文本或图像提示中生成高质量、细节丰富的3D模型,并允许灵活的编辑能力。这一突破性技术为3D视觉领域带来了新的可能性,并已在项目页面上公开了代码和模型。
TRELLIS主要功能
- 多格式3D生成:能够根据文本或图像提示生成多种3D表示格式,包括辐射场、3D高斯和网格。
- 高质量资产创建:生成具有复杂几何形状和生动纹理的3D资产。
- 灵活的3D编辑:支持无需调整的3D编辑,如局部区域的删除、添加和替换,由文本或图像提示引导。
- 无需拟合训练:在训练过程中不需要对3D对象进行拟合,简化了训练流程。
TRELLIS技术原理
- Structured LATent (SLAT) 表示:一种统一的3D潜在表示,通过在稀疏3D网格上定义局部潜在变量来捕获3D资产的几何和外观信息。
- 稀疏3D网格与多视图特征融合:将稀疏3D网格与从强大视觉基础模型提取的密集多视图视觉特征相结合,以全面捕捉3D资产的细节。
- 修正流变换器:使用专为SLAT设计的修正流变换器作为3D生成模型,以处理SLAT的稀疏性并生成高质量的3D资产。
- 大规模参数训练:在包含50万个多样化对象的大型3D资产数据集上训练模型,模型参数高达20亿。
- 两阶段生成流程:首先生成SLAT的稀疏结构,然后生成附加到该结构的局部潜在向量,提高了生成过程的效率和灵活性。
- 局部编辑能力:利用SLAT的局部性,通过改变特定区域的体素和潜在向量来实现区域特定的编辑,允许在保持其他部分不变的情况下对目标区域进行修改。
TRELLIS应用场景
- 游戏开发:快速生成具有复杂几何和生动纹理的游戏内3D模型,提高游戏设计的效率和多样性。
- 电影和动画制作:创建高细节的3D角色和场景,用于电影和动画的制作,减少传统建模的时间和成本。
- 虚拟现实(VR)和增强现实(AR):为虚拟环境提供逼真的3D资产,增强用户的沉浸感和交互体验。
- 建筑可视化:根据设计图纸或描述快速生成建筑模型,用于建筑规划和营销展示。
- 产品设计:辅助设计师根据概念快速迭代产品原型,加速产品设计流程。
- 教育和培训:创建逼真的3D模型用于教育目的,如历史遗迹重建或科学模型展示,提供直观的学习材料。
TRELLIS项目入口
- 项目主页:https://trellis3d.github.io/
- GitHub代码库:https://github.com/Microsoft/TRELLIS
- arXiv研究论文:https://arxiv.org/pdf/2412.01506
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...