Hi3DGen:字节联合清华等高校推出的3D几何生成框架
Hi3DGen简介
Hi3DGen是由香港中文大学(深圳)、字节跳动和清华大学联合开发的高保真3D几何生成框架。该框架通过法线图作为中间表示,有效解决了从2D图像生成3D模型时细粒度几何细节丢失的问题。它包含三个关键部分:图像到法线估计器(NiRNE),通过噪声注入和双流训练实现稳定且锐利的法线估计;法线到几何学习方法(NoRLD),利用法线正则化提升3D几何生成的保真度;以及DetailVerse数据集,提供高质量的合成3D数据以支持训练。Hi3DGen在生成与输入图像一致的丰富几何细节方面表现出色,优于现有方法,为高保真3D几何生成提供了新的方向。

Hi3DGen主要功能
-
高保真3D几何生成:
-
从2D图像生成具有丰富几何细节的3D模型,显著提升生成模型的保真度和细节丰富度。
-
生成的3D模型在整体形状和局部细节上与输入图像高度一致,适用于多种实际应用场景,如3D建模、虚拟现实和增强现实等。
-
-
法线图作为中间表示:
-
利用法线图(normal maps)作为2D图像和3D几何之间的桥梁,有效缓解了从2D到3D映射学习中的域差距问题。
-
法线图提供了更清晰的几何线索,有助于更准确地提取和生成细粒度几何细节。
-
-
高质量数据合成:
-
提供了一个高质量的合成3D数据集(DetailVerse),包含700k个具有复杂结构和丰富表面细节的3D资产。
-
该数据集支持框架的训练,显著提升了模型的泛化能力和生成质量。
-
-
鲁棒的法线估计:
-
通过噪声注入和双流训练策略,实现从输入图像到法线图的稳定、锐利估计。
-
在不同域(如真实世界和合成数据)上表现出色,具有良好的泛化能力。
-
-
法线正则化的3D生成:
-
在3D几何生成过程中引入法线正则化,确保生成的3D模型与输入图像在几何细节上保持一致。
-
通过在线正则化方法,显著提升了生成模型的保真度和细节丰富度。
-
Hi3DGen技术原理
-
图像到法线估计器(NiRNE):
-
噪声注入:通过在编码器输出的特征中注入噪声,增强模型对高频细节的敏感性。
-
双流训练:设计了两个独立的流,一个处理原始图像以捕获低频结构信息,另一个处理噪声注入的图像以关注高频细节。
-
域特定训练:先在真实世界数据上训练,再在合成数据上微调,充分利用不同域数据的优势,提升模型的泛化能力。
-
-
法线到几何学习方法(NoRLD):
-
潜在扩散学习:利用变分自编码器(VAE)将3D几何编码到潜在空间,并通过扩散过程进行生成。
-
法线正则化:在扩散训练过程中引入法线正则化,直接在3D几何空间中提供监督,确保生成的3D模型与输入图像在几何细节上保持一致。
-
在线正则化:在训练过程中实时进行法线正则化,避免后处理中的细节丢失。
-
-
3D数据合成流程:
-
文本提示生成:从DiffusionDB中收集高质量的文本提示,通过分类和标准化处理,生成具有语义多样性的文本描述。
-
图像生成:使用先进的生成模型(如Flux.1-Dev)根据文本提示生成高保真的图像,并通过姿态验证确保图像的几何一致性。
-
3D合成:利用Trellis等模型将图像转换为3D模型,并通过专家评估和自动化质量检测,确保生成的3D模型具有高质量的几何细节。
-
Hi3DGen应用场景
-
3D建模与设计:从2D设计草图快速生成高保真3D模型,提高设计效率,减少建模时间。
-
虚拟现实(VR)与增强现实(AR):为VR和AR应用生成逼真的3D场景和物体,提升用户体验的沉浸感。
-
游戏开发:快速生成游戏中的3D角色和场景,丰富游戏内容,提升视觉效果。
-
影视制作:用于特效制作,从概念图快速生成高质量的3D模型,加速影视制作流程。
-
文化遗产保护:从历史文物的2D图像生成3D模型,用于数字化保护和展示,便于研究和教育。
-
教育与培训:在教育领域生成3D教学模型,帮助学生更好地理解和学习复杂的几何结构和空间关系。
Hi3DGen项目入口
- 项目主页:https://stable-x.github.io/Hi3DGen
- GitHub代码库:https://github.com/Tencent/HunyuanDiT
- arXiv研究论文:https://arxiv.org/pdf/2405.08748
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...