ID-Animator：单张人脸照片就可以生成高质量的特定人体视频

0 100

ID-Animator项目简介

ID-Animator是一个零样本人类视频生成方法，它能够在不需要进一步训练的情况下，使用单个参考面部图像进行个性化视频生成。该方法继承了现有的基于扩散的视频生成框架，并加入了面部适配器来编码从可学习的面部潜在查询中得到的与身份相关的嵌入。为了在视频生成中提取身份信息，研究者们引入了一个面向身份的数据集构建流程，该流程包括从构建的面部图像池中解耦的人类属性和动作字幕技术。通过这种方法，研究者们能够精确捕获参考图像中的与身份相关的嵌入，从而提高模型对特定身份视频生成的保真度和泛化能力。该技术由腾讯光子工作室、中科大和中科院合肥物质科学研究院的研究人员联合推出。

ID-Animator主要功能

❶单参考图像个性化视频生成：给定一张特定的面部参考图像，ID-Animator能够生成具有该特定身份的个性化人类视频，而无需进一步训练。
❷上下文信息调整：用户可以通过文本提示调整角色的上下文信息，包括属性（如头发和服装）、背景、动作、性别和年龄。
❸身份混合：ID-Animator能够通过不同比例混合两个不同身份的嵌入，生成结合了两个身份特征的视频。
❹与ControlNet结合：ID-Animator能够结合单帧或多帧控制图像，生成与控制图像序列紧密一致的视频。
❺与预训练模型兼容：能够与流行的预训练文本到视频（T2V）模型兼容，利用这些模型的生成能力。

ID-Animator应用场景

❶社交媒体个性化内容：用户可以在社交媒体上分享基于自己或亲友面孔生成的个性化视频，增加互动和娱乐性。
❷电影和视频制作：在电影工业中，ID-Animator可以用于生成或替换特定演员的面部视频，尤其是在特效密集的场景中，或者用于制作过程中的身份转换。
❸游戏和虚拟现实：在游戏开发中，ID-Animator可以用来生成玩家的虚拟角色，使角色的面部特征与玩家相似，提升沉浸感和个性化体验。
❹教育和培训视频：在教育领域，ID-Animator可以用于生成教学视频，其中的角色面孔可以根据学习者的身份特征进行定制，以提高学习者的参与度和学习效果。
❺广告和市场营销：营销人员可以利用ID-Animator生成定制的广告视频，通过在视频中展示与目标受众相似的面孔，来提高广告的吸引力和相关性。

ID-Animator技术原理

❶基于扩散的视频生成框架：ID-Animator采用了基于扩散模型的视频生成技术，这种模型能够生成连贯且逼真的视频内容。
❷面部适配器模块：为了在视频生成过程中保留和强调身份特征，ID-Animator设计了一个专门的面部适配器模块，它可以快速地进行训练，并且在生成视频时保持身份信息。
❸身份相关的嵌入编码：通过面部适配器，ID-Animator能够编码与身份相关的嵌入信息，这些嵌入信息是从可学习的面部潜在查询中获得的，有助于在生成的视频中保持个体的面部特征。
❹面向身份的数据集构建流程：ID-Animator引入了一个专门针对身份信息的数据集构建流程，这个流程通过解耦的人类属性和动作字幕技术，以及从面部图像池中检测和构建面部，来增强模型对身份信息的捕捉能力。
❺随机面部参考训练方法：在训练过程中，ID-Animator采用了随机选择参考图像的方法，利用蒙特卡洛技术平均不同参考图像的特征，减少身份不变特征的影响，从而提高模型对特定身份视频生成的保真度和泛化能力。