FaceLift：高质量地重建出360度的三维头部模型

0 90

FaceLift简介

FaceLift是由加州大学默塞德分校和Adobe Research联合开发的先进系统，它能够从单张人脸图像中快速、高质量地重建出360度的三维头部模型，并生成新颖视角的视图。该系统采用两阶段处理流程：首先利用基于扩散模型的多视角生成方法生成头部的一致侧视图和后视图，然后通过GS-LRM重建器将这些视图融合成一个全面的三维高斯表示。FaceLift在多个数据集上进行了广泛的评估，结果表明它在三维头部重建方面优于现有技术，并且能够很好地泛化到真实世界图像，支持视频输入进行4D新视角合成，并可与2D面部动画技术无缝集成，实现三维面部动画。

FaceLift主要功能

单图像三维头部重建：能够从单张人脸图像中快速、高质量地重建出360度的三维头部模型，包括面部和头发的细节。
新颖视角合成（NVS）：生成高质量的全头部新颖视角视图，准确捕捉面部和头发的细节，实现从任意角度的连贯可视化。
身份特征保留：在重建过程中，能够准确保留个体的身份特征，即使在生成未见视角时也能保持身份的一致性。
视频输入支持：支持视频输入，实现4D新颖视角合成，即在时间序列上生成一致的三维高斯序列，实现视频序列在新视角下的渲染。
与2D动画技术集成：能够与2D面部动画技术无缝集成，实现三维面部动画，提升动画的真实感和表现力。

FaceLift技术原理

多视角生成：
- 扩散模型：利用基于图像条件的扩散模型（如Stable Diffusion V2-1-unCLIP模型）作为核心视图生成骨干，通过微调该模型在合成的人类头部数据上，实现多视角一致性和身份保留。
- 多视角注意力机制：采用多视角注意力机制，促进信息传播，隐式编码多视角依赖关系，生成多视角一致的RGB图像。
- 视角覆盖：从单个近正面视角的人脸图像生成六个视角，包括正面、左右侧面、背面以及两个四分之三视角，覆盖360度的人头。
三维高斯头部重建：
- GS-LRM模型：使用GS-LRM（Gaussian Splatting Large Reconstruction Model）模型，该模型通过变换器架构从一组带姿态的图像中回归像素对齐的三维高斯。
- 高斯参数解码：将多视角图像与相应的Plücker射线坐标结合，通过变换器块处理，最终解码为高斯参数，每个二维像素对应一个三维高斯。
- 细节捕捉：高斯表示特别有效于捕捉人类头部的复杂细节，如头发丝，同时其前馈架构能够快速重建，适用于实际应用。
训练数据：
- 合成数据集：开发了一个高质量的合成三维头部数据集，包含200个独特身份，每个身份有50种不同的外观，包括不同的发型、肤色、表情、服装和姿态。
- 光照条件：在两种光照条件下渲染图像：环境光和随机HDR环境光，以增强模型对不同光照条件的适应能力。
- 多视角渲染：为训练多视角扩散模型，每个主题渲染六个视角；为微调GS-LRM，渲染32个随机相机姿态的视角。
优化与评估：
- 损失函数：在GS-LRM训练中，使用MSE和感知损失的组合进行优化，以提高重建质量和视觉效果。
- 定量评估：使用PSNR、SSIM、LPIPS和DreamSim等标准指标评估重建质量，并使用ArcFace进行身份验证。
- 定性评估：通过在多个数据集上的视觉结果比较，展示FaceLift在细节保留、身份一致性和视觉保真度方面的优势。

FaceLift应用场景

虚拟现实（VR）和增强现实（AR）：在VR和AR应用中，FaceLift可以生成高质量的三维头部模型，为用户提供更加真实和沉浸式的体验。例如，在虚拟会议中，参与者可以看到彼此的三维头像，仿佛身处同一空间。
数字娱乐：在电影、电视剧和动画制作中，FaceLift可以用于生成角色的三维头部模型，提高制作效率和质量。例如，为动画角色生成逼真的面部表情和头发细节，提升视觉效果。
游戏开发：在游戏开发中，FaceLift可以快速生成游戏角色的三维头部模型，减少建模时间。例如，为游戏中的NPC（非玩家角色）生成多样化的面部表情和发型，增强游戏的丰富性和真实感。
远程存在系统：在远程存在系统中，FaceLift可以用于生成用户的三维头像，实现更加自然和真实的远程交互。例如，在远程教育或远程医疗中，教师或医生可以通过三维头像与学生或患者进行更加生动的交流。
社交媒体和视频会议：在社交媒体和视频会议应用中，FaceLift可以用于生成用户的三维头像，提供更加个性化和有趣的交互体验。例如，用户可以在视频通话中使用自己的三维头像，增加通话的趣味性。
广告和营销：在广告和营销中，FaceLift可以用于生成逼真的三维人物形象，吸引观众的注意力。例如，为广告中的模特生成三维头像，展示产品时更加生动和真实，提升广告效果。