LHM:阿里通义推出的新型3D人类重建模型
LHM简介
LHM(Large Animatable Human Reconstruction Model)是由阿里巴巴集团通义实验室开发的一种新型3D人类重建模型。该模型能够在几秒钟内从单张图像中快速重建出可动画化的3D人类模型,具有高保真度和实时渲染能力。LHM通过多模态变换器架构和头部特征金字塔编码方案,有效地融合了3D位置特征和2D图像特征,从而在几何和视觉领域实现联合推理。它在大规模视频数据集上进行训练,无需依赖稀少的3D扫描数据,展现出强大的泛化能力和动画一致性。这一技术为沉浸式AR/VR应用中的3D人类建模提供了高效且高质量的解决方案。

LHM主要功能
-
快速重建可动画化3D人类模型:LHM能够在几秒钟内从单张图像中重建出高保真度的3D人类模型,并支持实时渲染和姿态控制动画。
-
高保真度细节保留:通过多模态变换器和头部特征金字塔编码方案,LHM能够保留服装几何和纹理的细节,同时显著提升面部和手部的细节恢复能力。
-
强大的泛化能力:LHM在大规模视频数据集上进行训练,无需依赖稀少的3D扫描数据,能够泛化到各种真实世界场景,适应不同的人物外观、服装和姿态。
-
支持实时渲染和动态交互:重建的3D模型支持实时渲染和姿态控制动画,适用于沉浸式AR/VR应用中的动态交互场景。
LHM技术原理
-
多模态变换器(Multimodal Transformer):
-
LHM采用多模态变换器架构,将3D几何特征和2D图像特征进行融合。通过注意力机制,模型能够有效地将人体位置特征与图像特征结合,实现几何和视觉领域的联合推理。
-
多模态变换器块(MBHT-block)能够处理几何标记、身体图像标记和头部图像标记,通过全局上下文特征进行调制,增强特征的融合效果。
-
-
头部特征金字塔编码(Head Feature Pyramid Encoding, HFPE):
-
为了更好地保留面部细节,LHM引入了头部特征金字塔编码方案。该方案通过聚合多尺度的视觉特征,从DINOv2模型中提取头部区域的特征,显著提升了面部细节的恢复能力。
-
-
3D高斯溅射(3D Gaussian Splatting)表示:
-
LHM将3D人类模型表示为一组3D高斯分布,这种表示方式支持实时的光栅化渲染,并且能够高效地处理复杂几何形状和外观细节。
-
模型通过预测每个高斯分布的中心点、尺度、旋转、不透明度和外观特征,实现对3D模型的精确描述。
-
-
自监督训练策略:
-
LHM通过自监督学习的方式进行训练,利用大规模视频数据中的多视角信息,将预测的3D模型变换到不同姿态,并通过渲染损失和正则化项进行优化。
-
训练过程中,模型通过光度监督(颜色、掩码和感知质量)和正则化约束(如形状正则化和位置锚定)来学习人类的几何和外观特征。
-
-
线性混合蒙皮(Linear Blend Skinning, LBS):
-
为了实现动画化,LHM使用线性混合蒙皮技术将重建的3D模型变换到目标姿态。通过SMPL-X骨架参数,模型能够实现平滑且自然的姿态变换。
-
LHM应用场景
-
虚拟现实(VR)和增强现实(AR):快速生成可动画化的3D人物模型,用于创建沉浸式的虚拟社交、虚拟会议或增强现实体验。
-
游戏开发:为游戏角色创建个性化且高质量的3D模型,支持实时动画和交互,提升游戏的视觉效果和用户体验。
-
影视制作:快速生成3D人物模型,用于动画电影、特效制作或虚拟拍摄,降低制作成本和时间。
-
在线试衣和虚拟服装展示:通过用户上传的照片快速生成3D人物模型,实现虚拟试衣和服装展示,提升购物体验。
-
虚拟主播和数字人:创建逼真的虚拟主播或数字人,用于新闻播报、直播互动或客服服务。
-
医疗和康复:生成患者的3D人体模型,用于手术规划、康复训练或医学教育,提供更直观的可视化工具。
LHM项目入口
- 项目主页:https://lingtengqiu.github.io/LHM
- GitHub代码库:https://github.com/aigc3d/LHM
- arxiv论文:https://arxiv.org/pdf/2503.10625
- Huggingface模型:https://huggingface.co/DyrusQZ/LHM_Runtime
- 在线体验:https://huggingface.co/spaces/DyrusQZ/LHM
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...