HiFiVFS：腾讯和VIVO的联合推出的高保真视频换脸框架

0 80

HiFiVFS简介

HiFiVFS是由腾讯和VIVO的联合研究团队开发的一种高保真视频换脸框架。该技术通过结合扩散模型的强大生成能力和时间先验，能够在视频中实现源图像身份特征与目标视频属性的无缝融合。HiFiVFS框架通过细粒度属性学习和详细身份学习，显著提升了换脸视频中的身份相似性和属性细节的保留，达到了业界领先水平。

HiFiVFS主要功能

高保真视频换脸：HiFiVFS能够将源图像中的人脸身份特征替换到目标视频中，同时保留目标视频的属性，如姿势、表情、光照和背景。
细粒度属性控制：通过细粒度属性学习（FAL），HiFiVFS能够提取和控制视频中的细微属性，例如光照和化妆细节。
身份特征增强：通过详细身份学习（DIL），HiFiVFS能够增强换脸后人脸的身份相似性，提高换脸质量。
时间稳定性：HiFiVFS利用时间注意力和时间身份注入技术，确保视频中连续帧之间的一致性和稳定性。
对抗学习：通过对抗学习，HiFiVFS提高了生成质量，使得换脸结果更加逼真。

HiFiVFS技术原理

Stable Video Diffusion (SVD)：HiFiVFS基于SVD框架，该框架利用3D卷积层、时间注意力层和时间解码器来保证视频稳定性。
细粒度属性学习（FAL）：
- 属性特征提取：使用编码器从目标视频中提取属性特征。
- 身份去敏感化：通过随机选择源图像中的人脸并使用预训练的识别模型提取身份特征，然后与属性特征融合。
- 对抗学习：使用对抗性损失函数来提高属性特征的生成质量。
详细身份学习（DIL）：
- 详细身份特征提取：从预训练的面部识别模型的最后Res-Block层提取更详细的面部身份特征。
- 身份令牌化：通过详细身份标记器（DIT）将详细身份特征转换为令牌，以保留所有身份细节。
时间注意力和身份注入：HiFiVFS在多帧目标视频上引入时间注意力和时间身份注入，以增强视频帧之间的一致性。
损失函数设计：HiFiVFS的损失函数包括去噪得分匹配、细粒度属性学习损失和身份损失，这些损失函数共同作用以优化模型性能。
多帧输入和输出：与基于单帧图像的方法不同，HiFiVFS支持多帧输入和输出，更适合视频换脸应用。
预训练模型和特征融合：HiFiVFS利用预训练模型提取的特征，并在解码器中融合这些特征，以生成具有不同身份的修改后的视频模板。