TripoSG：VAST等推出的高保真3D形状合成模型

0 30

TripoSG简介

TripoSG是由VAST和中国香港中文大学、德克萨斯大学奥斯汀分校以及上海人工智能实验室等机构联合开发的高保真3D形状合成模型。该模型通过大规模整流流变换器架构，结合SDF、法线和eikonal损失的混合监督策略，以及精心设计的数据处理流程，实现了从输入图像到高质量3D网格的精确生成。TripoSG在生成复杂结构、多样化风格和细节丰富的3D模型方面表现出色，展现了强大的泛化能力和与输入条件的高度一致性。开发团队通过大规模高质量数据训练和创新的模型架构，使TripoSG在3D生成领域达到了新的最高水平，为3D内容创作提供了强大的技术支持。

TripoSG主要功能

高保真3D形状生成：
- TripoSG能够从单张输入图像生成高质量、高分辨率的3D网格模型，生成的3D形状具有精细的几何细节和丰富的纹理。
- 生成的3D模型与输入图像在语义和几何上高度一致，能够准确反映输入图像中的物体结构和细节。
强大的泛化能力：
- TripoSG可以处理多种风格和内容的输入图像，包括漫画风格、卡通风格和写实风格等，生成高质量的3D模型。
- 模型在不同类型的输入图像上表现出色，具有良好的泛化能力，能够适应多样化的应用场景。
高效的数据处理和训练：
- TripoSG通过其数据构建系统，能够从大规模的原始3D数据中筛选、修复和增强高质量的训练数据。
- 该系统确保了训练数据的质量和数量，显著提升了模型的训练效率和最终性能。
支持纹理生成：
- TripoSG生成的3D模型可以进一步用于纹理生成，通过多视图生成方法生成一致的纹理贴图，从而得到带有纹理的3D模型。
- 这使得生成的3D模型不仅在几何上精确，而且在视觉上更加逼真。

TripoSG技术原理

大规模整流流变换器（Rectified Flow Transformer）：
- 架构设计：TripoSG采用基于Transformer的架构，通过编码器、中间块和解码器的结构，结合跳跃连接，增强了网络的特征表示能力。
- 时间步和图像条件注入：模型通过时间步编码和图像条件注入，实现了可控的3D生成。时间步通过MLP层投影到隐藏维度，图像条件通过CLIP和DINOv2提取的全局和局部特征注入到每个Transformer块中。
- 整流流采样：TripoSG采用整流流采样策略，简化了网络训练，使其更加高效和稳定。整流流通过线性轨迹从噪声分布映射到数据分布，相比DDPM和EDM的曲线轨迹，训练更加高效。
混合监督训练策略：
- SDF表示：TripoSG采用SDF（Signed Distance Function）作为3D模型的神经隐式表示，相比占用表示，SDF能够提供更精确和详细的几何信息，避免了量化误差和锯齿效应。
- 表面法线引导：在VAE训练中，TripoSG引入了表面法线引导和eikonal正则化，显著提升了3D模型重建的质量。表面法线引导能够捕捉更细粒度的几何细节，eikonal正则化则确保了SDF的梯度一致性。
- 多分辨率训练：TripoSG采用多分辨率VAE，支持从低分辨率到高分辨率的训练和推理，无需额外的微调。这使得模型能够直接生成高分辨率的3D模型，进一步提升了生成质量。
数据构建系统：
- 数据评分：通过线性回归模型结合CLIP和DINOv2特征，对3D模型进行质量评分，筛选出高质量的模型用于训练。
- 数据过滤：排除具有大平面底座、渲染错误和包含多个对象的模型，确保训练数据的纯净度。
- 数据修复和增强：对字符模型进行方向修复，确保其面向前方。对于未纹理化的模型，通过ControlNet++生成多视图RGB数据，作为训练时的条件输入。
- 场数据生成：将非封闭的3D网格转换为封闭的等值面，并通过Marching Cubes算法提取表面点和法线，生成适合训练的场数据。
模型扩展策略：
- 高分辨率训练：通过逐步增加潜在分辨率（从512到2048再到4096），TripoSG能够生成更精细的几何细节。
- 混合专家（MoE）架构：采用MoE架构扩展模型参数，通过稀疏激活机制，在不显著增加计算资源和推理延迟的情况下，显著提升了模型的性能。
- 大规模数据训练：TripoSG利用大规模高质量数据进行训练，进一步提升了模型的泛化能力和生成质量。