SkyReels-A1：昆仑万维开源的肖像动画框架

0 90

SkyReels-A1简介

SkyReels-A1是由昆仑万维开源的肖像动画框架，基于视频扩散Transformer（DiT）架构，旨在生成高质量的动态肖像动画。该框架通过表情感知条件模块和面部图像-文本对齐技术，实现了精确的表情传递和身份保持，同时采用多阶段训练范式逐步优化动作与身份的相关性，确保动画的自然性和连贯性。SkyReels-A1在处理复杂表情和全身动画时表现出色，能够生成逼真的面部动作和自然的身体姿态，适用于虚拟形象、远程通信和数字内容创作等领域。其代码和模型权重已公开，为相关领域的研究和应用提供了有力支持。

SkyReels-A1主要功能

高保真肖像动画生成：SkyReels-A1能够从静态肖像生成高质量的动态视频，精确捕捉和传递面部表情及身体动作，同时保持身份一致性。
表情与动作的精确传递：该框架可以准确地将输入视频中的表情和动作转移到目标肖像上，支持从微妙的表情变化到夸张的肢体动作。
全身动画支持：SkyReels-A1不仅支持头部动画，还能生成全身动画，适应不同身体比例的人物形象。
多场景应用适配：生成的动画能够自然地融入多种场景，适用于虚拟形象、远程通信、数字媒体创作等领域。
身份保持与自然过渡：在动画生成过程中，SkyReels-A1能够有效避免身份漂移，确保生成结果与原始肖像高度一致，同时实现自然的动作过渡。

SkyReels-A1技术原理

基于视频扩散Transformer（DiT）的架构：SkyReels-A1利用视频扩散Transformer的强大生成能力，将面部细节和全身动态统一建模在同一个潜在空间中，解决了现有方法中身份漂移和背景不一致的问题。
表情感知条件模块：该模块通过提取视频中的表情引导地标（如面部关键点），并将这些地标信息融入生成过程中，实现对微妙表情（如眉毛抬升、嘴唇弯曲）的精确控制。
面部图像-文本对齐技术：SkyReels-A1引入了一种轻量级的映射模块，将面部特征映射到文本特征空间，增强身份一致性，同时允许预训练模型的能力无缝转移。
3D地标引导器：通过3D因果编码器将驱动信号（如动作地标）投影到与视频潜在表示共享的空间中，确保动作信号与生成视频帧之间的精确对齐，增强动作的时空连贯性。
多阶段训练范式：SkyReels-A1采用分阶段训练方法：首先进行运动驱动训练，然后是身份保持训练，最后进行多模块联合微调。这种逐步优化的方式显著提升了模型在动作精度和身份稳定性方面的表现。
面部感知损失函数：在训练过程中，SkyReels-A1使用基于光学流的面部感知损失函数，优先关注高运动区域（如面部表情和身体动作），从而提高生成视频的流畅性和真实性。