Hi3DGen:字节联合清华等高校推出的3D几何生成框架

Hi3DGen简介

Hi3DGen是由香港中文大学(深圳)、字节跳动和清华大学联合开发的高保真3D几何生成框架。该框架通过法线图作为中间表示,有效解决了从2D图像生成3D模型时细粒度几何细节丢失的问题。它包含三个关键部分:图像到法线估计器(NiRNE),通过噪声注入和双流训练实现稳定且锐利的法线估计;法线到几何学习方法(NoRLD),利用法线正则化提升3D几何生成的保真度;以及DetailVerse数据集,提供高质量的合成3D数据以支持训练。Hi3DGen在生成与输入图像一致的丰富几何细节方面表现出色,优于现有方法,为高保真3D几何生成提供了新的方向。

Hi3DGen:字节联合清华等高校推出的3D几何生成框架

Hi3DGen主要功能

  1. 高保真3D几何生成
    • 从2D图像生成具有丰富几何细节的3D模型,显著提升生成模型的保真度和细节丰富度。
    • 生成的3D模型在整体形状和局部细节上与输入图像高度一致,适用于多种实际应用场景,如3D建模、虚拟现实和增强现实等。
  2. 法线图作为中间表示
    • 利用法线图(normal maps)作为2D图像和3D几何之间的桥梁,有效缓解了从2D到3D映射学习中的域差距问题。
    • 法线图提供了更清晰的几何线索,有助于更准确地提取和生成细粒度几何细节。
  3. 高质量数据合成
    • 提供了一个高质量的合成3D数据集(DetailVerse),包含700k个具有复杂结构和丰富表面细节的3D资产。
    • 该数据集支持框架的训练,显著提升了模型的泛化能力和生成质量。
  4. 鲁棒的法线估计
    • 通过噪声注入和双流训练策略,实现从输入图像到法线图的稳定、锐利估计。
    • 在不同域(如真实世界和合成数据)上表现出色,具有良好的泛化能力。
  5. 法线正则化的3D生成
    • 在3D几何生成过程中引入法线正则化,确保生成的3D模型与输入图像在几何细节上保持一致。
    • 通过在线正则化方法,显著提升了生成模型的保真度和细节丰富度。

Hi3DGen技术原理

  1. 图像到法线估计器(NiRNE)
    • 噪声注入:通过在编码器输出的特征中注入噪声,增强模型对高频细节的敏感性。
    • 双流训练:设计了两个独立的流,一个处理原始图像以捕获低频结构信息,另一个处理噪声注入的图像以关注高频细节。
    • 域特定训练:先在真实世界数据上训练,再在合成数据上微调,充分利用不同域数据的优势,提升模型的泛化能力。
  2. 法线到几何学习方法(NoRLD)
    • 潜在扩散学习:利用变分自编码器(VAE)将3D几何编码到潜在空间,并通过扩散过程进行生成。
    • 法线正则化:在扩散训练过程中引入法线正则化,直接在3D几何空间中提供监督,确保生成的3D模型与输入图像在几何细节上保持一致。
    • 在线正则化:在训练过程中实时进行法线正则化,避免后处理中的细节丢失。
  3. 3D数据合成流程
    • 文本提示生成:从DiffusionDB中收集高质量的文本提示,通过分类和标准化处理,生成具有语义多样性的文本描述。
    • 图像生成:使用先进的生成模型(如Flux.1-Dev)根据文本提示生成高保真的图像,并通过姿态验证确保图像的几何一致性。
    • 3D合成:利用Trellis等模型将图像转换为3D模型,并通过专家评估和自动化质量检测,确保生成的3D模型具有高质量的几何细节。

Hi3DGen应用场景

  1. 3D建模与设计从2D设计草图快速生成高保真3D模型,提高设计效率,减少建模时间。
  2. 虚拟现实(VR)与增强现实(AR)为VR和AR应用生成逼真的3D场景和物体,提升用户体验的沉浸感。
  3. 游戏开发快速生成游戏中的3D角色和场景,丰富游戏内容,提升视觉效果。
  4. 影视制作用于特效制作,从概念图快速生成高质量的3D模型,加速影视制作流程。
  5. 文化遗产保护从历史文物的2D图像生成3D模型,用于数字化保护和展示,便于研究和教育。
  6. 教育与培训在教育领域生成3D教学模型,帮助学生更好地理解和学习复杂的几何结构和空间关系。

Hi3DGen项目入口

 

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...