Hi3DGen：字节联合清华等高校推出的3D几何生成框架

0 80

Hi3DGen简介

Hi3DGen是由香港中文大学（深圳）、字节跳动和清华大学联合开发的高保真3D几何生成框架。该框架通过法线图作为中间表示，有效解决了从2D图像生成3D模型时细粒度几何细节丢失的问题。它包含三个关键部分：图像到法线估计器（NiRNE），通过噪声注入和双流训练实现稳定且锐利的法线估计；法线到几何学习方法（NoRLD），利用法线正则化提升3D几何生成的保真度；以及DetailVerse数据集，提供高质量的合成3D数据以支持训练。Hi3DGen在生成与输入图像一致的丰富几何细节方面表现出色，优于现有方法，为高保真3D几何生成提供了新的方向。

Hi3DGen主要功能

高保真3D几何生成：
- 从2D图像生成具有丰富几何细节的3D模型，显著提升生成模型的保真度和细节丰富度。
- 生成的3D模型在整体形状和局部细节上与输入图像高度一致，适用于多种实际应用场景，如3D建模、虚拟现实和增强现实等。
法线图作为中间表示：
- 利用法线图（normal maps）作为2D图像和3D几何之间的桥梁，有效缓解了从2D到3D映射学习中的域差距问题。
- 法线图提供了更清晰的几何线索，有助于更准确地提取和生成细粒度几何细节。
高质量数据合成：
- 提供了一个高质量的合成3D数据集（DetailVerse），包含700k个具有复杂结构和丰富表面细节的3D资产。
- 该数据集支持框架的训练，显著提升了模型的泛化能力和生成质量。
鲁棒的法线估计：
- 通过噪声注入和双流训练策略，实现从输入图像到法线图的稳定、锐利估计。
- 在不同域（如真实世界和合成数据）上表现出色，具有良好的泛化能力。
法线正则化的3D生成：
- 在3D几何生成过程中引入法线正则化，确保生成的3D模型与输入图像在几何细节上保持一致。
- 通过在线正则化方法，显著提升了生成模型的保真度和细节丰富度。

Hi3DGen技术原理

图像到法线估计器（NiRNE）：
- 噪声注入：通过在编码器输出的特征中注入噪声，增强模型对高频细节的敏感性。
- 双流训练：设计了两个独立的流，一个处理原始图像以捕获低频结构信息，另一个处理噪声注入的图像以关注高频细节。
- 域特定训练：先在真实世界数据上训练，再在合成数据上微调，充分利用不同域数据的优势，提升模型的泛化能力。
法线到几何学习方法（NoRLD）：
- 潜在扩散学习：利用变分自编码器（VAE）将3D几何编码到潜在空间，并通过扩散过程进行生成。
- 法线正则化：在扩散训练过程中引入法线正则化，直接在3D几何空间中提供监督，确保生成的3D模型与输入图像在几何细节上保持一致。
- 在线正则化：在训练过程中实时进行法线正则化，避免后处理中的细节丢失。
3D数据合成流程：
- 文本提示生成：从DiffusionDB中收集高质量的文本提示，通过分类和标准化处理，生成具有语义多样性的文本描述。
- 图像生成：使用先进的生成模型（如Flux.1-Dev）根据文本提示生成高保真的图像，并通过姿态验证确保图像的几何一致性。
- 3D合成：利用Trellis等模型将图像转换为3D模型，并通过专家评估和自动化质量检测，确保生成的3D模型具有高质量的几何细节。