GAS：从单张图像生成视角一致且时间连贯的高质量虚拟形象

0 90

GAS简介

GAS（Generative Avatar Synthesis from a Single Image）是由卡内基梅隆大学、上海人工智能实验室和斯坦福大学联合开发的一种先进的人像合成技术。该技术能够从单张图像生成视角一致且时间连贯的高质量虚拟形象，解决了传统方法在多视角和动态合成中的不一致性问题。GAS通过结合回归基的3D人体重建和扩散模型的强大生成能力，利用密集的驱动信号确保合成结果的高质量和细节一致性。开发团队还提出了统一框架，将新视角合成和新姿态合成任务整合，通过模式切换器实现任务的解耦，从而在真实世界数据上展现出卓越的泛化能力。这一创新技术为虚拟形象生成领域带来了突破性进展，有望在游戏、影视、虚拟现实等多个领域得到广泛应用。

GAS主要功能

单图像虚拟形象生成：从单张输入图像生成高质量的虚拟形象，适用于多种应用场景如游戏、电影、虚拟现实等。
视角一致性：生成的虚拟形象在不同视角下保持一致性，避免传统方法中常见的多视角不一致问题。
时间连贯性：在动态场景中，虚拟形象的动作和外观保持时间上的连贯性，避免闪烁和不自然的变形。
泛化能力：能够处理真实世界中多样化的输入数据，包括不同的光照、服装和动作，适应性强。

GAS技术原理

回归基的3D人体重建：
- 初步重建：使用回归基的3D人体重建模型，从单张图像生成中间的新视角或姿态。
- 密集驱动信号：提供密集的驱动信号，为后续的扩散模型提供全面的条件信息，确保生成结果的高质量和细节一致性。
扩散模型：
- 视频扩散模型：将3D重建得到的密集信息作为条件输入到视频扩散模型中，生成具有视角一致性和时间连贯性的虚拟形象。
- 多视角一致性：通过扩散模型的生成能力，确保不同视角下的虚拟形象保持一致性。
统一框架：
- 任务整合：提出统一框架，将新视角合成和新姿态合成任务结合起来，通过共享模型参数实现跨任务的泛化能力。
- 模式切换器：引入模式切换器（switcher），用于区分新视角合成和新姿态合成任务，使网络能够专注于视角一致性和真实变形。
多源数据训练：
- 多视角数据集：使用多视角数据集进行训练，增强模型在不同视角下的生成能力。
- 真实世界视频：结合真实世界中的互联网视频进行训练，提高模型在多样化场景中的泛化能力。