CLAY：用于创建高质量 3D 资产的可控大规模生成模型

0 30

CLAY简介

CLAY是由上海科技大学和Deemos Technology Co., Ltd.的联合研究团队开发的一款创新的大规模3D生成模型，旨在将人类的想象力轻松转化为精细的三维数字结构。该模型支持文本或图像输入，并能通过多种3D控制方式，如多视图图像、体素、边界框等，实现对生成内容的精确操控。CLAY的核心是一个由多分辨率变分自编码器和潜在扩散变换器组成的大型生成模型，能够直接从多样的3D几何形态中提取丰富的3D先验知识。通过精心设计的训练流程，CLAY能够在超大规模的3D模型数据集上进行训练，生成具有15亿参数的3D原生几何体。此外，CLAY还能够生成具有物理基础渲染（PBR）纹理的高质量材质，推动了数字创造力领域的界限。

CLAY主要功能

❶3D几何和材质生成：CLAY能够根据文本或图像输入生成复杂的3D数字结构。
❷多模态控制：支持3D感知控制，包括多视图图像、体素、边界框、点云和隐式表示等。
❸高质量纹理生成：能够生成具有漫反射、粗糙度和金属度等多种模式的2K分辨率纹理。
❹控制性和易用性：即使是初次使用者也能轻松地将他们的3D想象变为现实，实现从概念设计到生产就绪资产的创建。

CLAY技术原理

❶多分辨率变分自编码器（VAE）：用于高效地对几何数据进行编码和解码，处理不同尺度的3D数据。
❷潜在扩散变换器（DiT）：一种基于Transformer的模块，用于在潜在空间中进行概率几何生成。
❸神经场表示：采用神经场来表示连续完整的表面，更好地理解和保留几何特征。
❹渐进式训练方案：通过逐步增加潜在空间的大小和模型参数，训练出一个具有15亿参数的3D原生几何生成器。
❺数据标准化处理流程：包括重新网格化过程和利用GPT-4V进行的鲁棒注释，以提高训练样本的质量。
❻多视图材质扩散模型：用于在多视图物理基础渲染（PBR）纹理上进行训练，有效生成具有视图一致性的高质量纹理。
❼LoRAlike微调和基于交叉注意力的条件化：支持文本或图像创作以及来自多种3D原语的空间控制。

CLAY应用场景

❶电影制作：生成高质量的3D模型和场景，用于电影中的特效和动画制作。
❷游戏开发：为电子游戏设计复杂的3D角色、道具和环境。
❸虚拟现实(VR)：创造沉浸式的虚拟环境和对象，用于VR体验和模拟。
❹增强现实(AR)：为AR应用制作逼真的3D元素，提供增强的视觉体验。
❺建筑可视化：辅助建筑师和设计师在建造前预览建筑结构和室内设计。
❻教育和培训：用于教育领域，帮助学生更直观地理解复杂的3D概念和结构。