LHM：阿里通义推出的新型3D人类重建模型

0 60

LHM简介

LHM（Large Animatable Human Reconstruction Model）是由阿里巴巴集团通义实验室开发的一种新型3D人类重建模型。该模型能够在几秒钟内从单张图像中快速重建出可动画化的3D人类模型，具有高保真度和实时渲染能力。LHM通过多模态变换器架构和头部特征金字塔编码方案，有效地融合了3D位置特征和2D图像特征，从而在几何和视觉领域实现联合推理。它在大规模视频数据集上进行训练，无需依赖稀少的3D扫描数据，展现出强大的泛化能力和动画一致性。这一技术为沉浸式AR/VR应用中的3D人类建模提供了高效且高质量的解决方案。

LHM主要功能

快速重建可动画化3D人类模型：LHM能够在几秒钟内从单张图像中重建出高保真度的3D人类模型，并支持实时渲染和姿态控制动画。
高保真度细节保留：通过多模态变换器和头部特征金字塔编码方案，LHM能够保留服装几何和纹理的细节，同时显著提升面部和手部的细节恢复能力。
强大的泛化能力：LHM在大规模视频数据集上进行训练，无需依赖稀少的3D扫描数据，能够泛化到各种真实世界场景，适应不同的人物外观、服装和姿态。
支持实时渲染和动态交互：重建的3D模型支持实时渲染和姿态控制动画，适用于沉浸式AR/VR应用中的动态交互场景。

LHM技术原理

多模态变换器（Multimodal Transformer）：
- LHM采用多模态变换器架构，将3D几何特征和2D图像特征进行融合。通过注意力机制，模型能够有效地将人体位置特征与图像特征结合，实现几何和视觉领域的联合推理。
- 多模态变换器块（MBHT-block）能够处理几何标记、身体图像标记和头部图像标记，通过全局上下文特征进行调制，增强特征的融合效果。
头部特征金字塔编码（Head Feature Pyramid Encoding, HFPE）：
- 为了更好地保留面部细节，LHM引入了头部特征金字塔编码方案。该方案通过聚合多尺度的视觉特征，从DINOv2模型中提取头部区域的特征，显著提升了面部细节的恢复能力。
3D高斯溅射（3D Gaussian Splatting）表示：
- LHM将3D人类模型表示为一组3D高斯分布，这种表示方式支持实时的光栅化渲染，并且能够高效地处理复杂几何形状和外观细节。
- 模型通过预测每个高斯分布的中心点、尺度、旋转、不透明度和外观特征，实现对3D模型的精确描述。
自监督训练策略：
- LHM通过自监督学习的方式进行训练，利用大规模视频数据中的多视角信息，将预测的3D模型变换到不同姿态，并通过渲染损失和正则化项进行优化。
- 训练过程中，模型通过光度监督（颜色、掩码和感知质量）和正则化约束（如形状正则化和位置锚定）来学习人类的几何和外观特征。
线性混合蒙皮（Linear Blend Skinning, LBS）：
- 为了实现动画化，LHM使用线性混合蒙皮技术将重建的3D模型变换到目标姿态。通过SMPL-X骨架参数，模型能够实现平滑且自然的姿态变换。