Pippo：从单张照片生成高分辨率的多视角人类图像视频

0 30

Pippo简介

Pippo是由Meta Reality Labs、多伦多大学和加州大学伯克利分校联合开发的先进生成模型。它能够从单张普通照片生成高分辨率（1K）的多视角人类图像视频，无需额外输入，例如拟合的参数化模型或相机参数。该模型通过结合大规模无结构的网络图像和高质量的多视角工作室数据进行训练，以实现高分辨率和多视角一致的人像生成。Pippo采用多阶段训练策略，包括预训练、中期训练和后期训练，并提出了一种新的3D一致性度量方法来评估多视角生成的质量。它在高分辨率多视角生成、身份保持和泛化能力方面均表现出色，为高质量人类图像生成开辟了新方向。

Pippo主要功能

高分辨率多视角生成：Pippo能够从单张普通照片生成1K分辨率的多视角人类图像视频。
无需额外输入：该模型不需要额外的输入，例如拟合的参数化模型或相机参数。
多视角一致性：Pippo可以生成多个视角一致的图像，确保生成的图像在3D空间中的一致性。
身份保持：在生成过程中，Pippo能够保持输入图像中人物的身份特征。
泛化能力：Pippo在不同数据集上的表现优异，能够处理多种输入图像，包括工作室拍摄和随意拍摄的照片。

Pippo技术原理

多阶段训练策略：
- 预训练（Pre-training）：在大规模人类中心的无结构图像数据集上进行预训练，学习从潜在空间到图像的生成任务。
- 中期训练（Mid-training）：在低分辨率下使用高质量工作室数据集，联合生成多个一致的图像视图。
- 后期训练（Post-training）：在高分辨率下进一步优化模型，使用空间锚点（Spatial Anchor）来增强3D一致性。
扩散变换器架构（Diffusion Transformer）：
- 自注意力条件（Self-attention Conditioning）：通过自注意力机制来增强多视角生成和视角控制。
- 轻量级空间控制（Lightweight Spatial Controls）：使用轻量级的空间控制来实现精确的视角生成。
- 相机条件与Plücker坐标（Camera Conditioning with Plücker Coordinates）：结合相机条件和Plücker坐标来实现多视角一致性。
注意力偏差技术（Attention Biasing Technique）：
- 控制注意力头的熵增长：在推理阶段，通过注意力偏差技术来控制和减少注意力头的熵增长，从而生成比训练时多5倍以上的视图。
3D一致性度量方法（3D Consistency Metric）：
- 重投影误差（Reprojection Error, RE）：提出了一种新的3D一致性度量方法，通过计算2D关键点匹配、三角测量和重投影误差来评估生成图像的3D一致性。