LHM:阿里通义推出的新型3D人类重建模型

LHM简介

LHM(Large Animatable Human Reconstruction Model)是由阿里巴巴集团通义实验室开发的一种新型3D人类重建模型。该模型能够在几秒钟内从单张图像中快速重建出可动画化的3D人类模型,具有高保真度和实时渲染能力。LHM通过多模态变换器架构和头部特征金字塔编码方案,有效地融合了3D位置特征和2D图像特征,从而在几何和视觉领域实现联合推理。它在大规模视频数据集上进行训练,无需依赖稀少的3D扫描数据,展现出强大的泛化能力和动画一致性。这一技术为沉浸式AR/VR应用中的3D人类建模提供了高效且高质量的解决方案。

LHM:阿里通义推出的新型3D人类重建模型

LHM主要功能

  1. 快速重建可动画化3D人类模型:LHM能够在几秒钟内从单张图像中重建出高保真度的3D人类模型,并支持实时渲染和姿态控制动画。
  2. 高保真度细节保留:通过多模态变换器和头部特征金字塔编码方案,LHM能够保留服装几何和纹理的细节,同时显著提升面部和手部的细节恢复能力。
  3. 强大的泛化能力:LHM在大规模视频数据集上进行训练,无需依赖稀少的3D扫描数据,能够泛化到各种真实世界场景,适应不同的人物外观、服装和姿态。
  4. 支持实时渲染和动态交互:重建的3D模型支持实时渲染和姿态控制动画,适用于沉浸式AR/VR应用中的动态交互场景。

LHM技术原理

  1. 多模态变换器(Multimodal Transformer)
    • LHM采用多模态变换器架构,将3D几何特征和2D图像特征进行融合。通过注意力机制,模型能够有效地将人体位置特征与图像特征结合,实现几何和视觉领域的联合推理。
    • 多模态变换器块(MBHT-block)能够处理几何标记、身体图像标记和头部图像标记,通过全局上下文特征进行调制,增强特征的融合效果。
  2. 头部特征金字塔编码(Head Feature Pyramid Encoding, HFPE)
    • 为了更好地保留面部细节,LHM引入了头部特征金字塔编码方案。该方案通过聚合多尺度的视觉特征,从DINOv2模型中提取头部区域的特征,显著提升了面部细节的恢复能力。
  3. 3D高斯溅射(3D Gaussian Splatting)表示
    • LHM将3D人类模型表示为一组3D高斯分布,这种表示方式支持实时的光栅化渲染,并且能够高效地处理复杂几何形状和外观细节。
    • 模型通过预测每个高斯分布的中心点、尺度、旋转、不透明度和外观特征,实现对3D模型的精确描述。
  4. 自监督训练策略
    • LHM通过自监督学习的方式进行训练,利用大规模视频数据中的多视角信息,将预测的3D模型变换到不同姿态,并通过渲染损失和正则化项进行优化。
    • 训练过程中,模型通过光度监督(颜色、掩码和感知质量)和正则化约束(如形状正则化和位置锚定)来学习人类的几何和外观特征。
  5. 线性混合蒙皮(Linear Blend Skinning, LBS)
    • 为了实现动画化,LHM使用线性混合蒙皮技术将重建的3D模型变换到目标姿态。通过SMPL-X骨架参数,模型能够实现平滑且自然的姿态变换。

LHM应用场景

  1. 虚拟现实(VR)和增强现实(AR):快速生成可动画化的3D人物模型,用于创建沉浸式的虚拟社交、虚拟会议或增强现实体验。
  2. 游戏开发:为游戏角色创建个性化且高质量的3D模型,支持实时动画和交互,提升游戏的视觉效果和用户体验。
  3. 影视制作:快速生成3D人物模型,用于动画电影、特效制作或虚拟拍摄,降低制作成本和时间。
  4. 在线试衣和虚拟服装展示:通过用户上传的照片快速生成3D人物模型,实现虚拟试衣和服装展示,提升购物体验。
  5. 虚拟主播和数字人:创建逼真的虚拟主播或数字人,用于新闻播报、直播互动或客服服务。
  6. 医疗和康复:生成患者的3D人体模型,用于手术规划、康复训练或医学教育,提供更直观的可视化工具。

LHM项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...