OSDFace：上海交通大学推出的一次性面部恢复扩散模型

0 10

OSDFace简介

OSDFace是由上海交通大学与vivo移动通信有限公司联合开发团队提出的一种创新的一次性扩散模型，用于面部图像恢复。该模型通过视觉表示嵌入器（VRE）捕获低质量面部图像的丰富先验信息，并结合面部身份损失与生成对抗网络（GAN）引导模型，以确保恢复出的面部图像在视觉上高质量且身份一致。OSDFace在保持实时推理速度的同时，超越了现有最先进方法，在多个定量和定性指标上展现出卓越的性能。

OSDFace主要功能

面部恢复：OSDFace能够从低质量的输入图像中恢复出高清晰度的面部图像。
身份一致性：通过面部身份损失，确保生成的面部图像与输入图像在身份特征上保持一致。
快速推理：作为一个一次性扩散模型，OSDFace能够在约0.1秒内完成512×512像素图像的推理，具有快速的处理速度。
视觉质量提升：在视觉质量和定量指标上超越了现有的最先进方法，生成自然且高保真的面部图像。

OSDFace技术原理

一次性扩散模型（OSD）：
- 利用扩散模型的前向和反向操作，通过迭代去噪过程将随机噪声转化为结构化数据。
- 在反向阶段，直接估计干净的潜在向量，实现一步到位的图像恢复。
视觉表示嵌入器（VRE）：
- 包含视觉分词器和向量量化（VQ）嵌入器，用于从低质量输入中提取丰富的面部信息。
- 通过VAE编码器和VQ字典匹配功能，将低质量面部图像转换为视觉提示。
面部身份损失：
- 利用预训练的面部识别模型（如ArcFace），计算生成面部和目标高质理面部图像之间的特征相似性。
- 通过余弦相似度作为损失函数，增强生成面部的整体和谐性及面部特征的精确对齐。
生成对抗网络（GAN）：
- 使用GAN鉴别器作为引导模型，鼓励生成的面部图像与真实面部图像之间的分布对齐。
- 通过对抗性训练增强模型的泛化能力，提高生成图像的真实感。
特征对齐损失：
- 引入特征对齐损失，增强低质量图像编码器与高质量图像编码器之间的特征相关性。
- 通过提升VQ字典内对角线相关性，引导低质量图像编码器关注与高质量图像编码器相似的特征。
训练策略：
- 分两个阶段训练：首先训练VRE以建立图像类别的字典，然后利用预训练的VRE引导扩散模型，更有效地利用输入图像的先验知识。
- 采用多种损失函数，包括图像恢复损失、感知损失、鉴别损失和量化损失，以优化模型性能。