LCVD:高保真、可重光照的单目肖像动画生成模型
LCVD简介
LCVD(Lighting Controllable Video Diffusion Model)是由四川大学国家合成视觉基础科学重点实验室和计算机学院的研究团队开发的一种高保真、可重光照的单目肖像动画生成模型。该模型通过创新性地分离肖像的内在特征(如身份和外观)与外在特征(如姿态和光照),实现了在动画生成过程中对光照条件的精确控制。团队提出了独特的阴影适配器和参考适配器,分别映射外在和内在特征子空间,并结合多条件分类器自由引导技术,生成与目标光照一致的高质量肖像动画。LCVD在光照真实感、图像质量和视频一致性方面显著优于现有方法,为肖像动画和虚拟现实等领域提供了强大的技术支持。

LCVD主要功能
-
高保真肖像动画生成:LCVD能够将静态肖像动画化,使其匹配驱动视频中的头部运动和表情变化,生成高分辨率、高质量的动态肖像。
-
光照可控性:该模型支持在动画生成过程中实时调整光照条件,使生成的肖像能够适应用户指定的光照或参考光照,实现无缝的背景融合。
-
身份和外观保留:LCVD在动画化和重光照过程中能够有效保留参考肖像的身份和外观特征,避免身份信息的丢失。
-
跨身份肖像动画:即使参考肖像与驱动视频中的身份不同,LCVD也能生成高质量的动画,同时保持身份一致性和光照匹配。
-
视频一致性:生成的肖像动画在时间序列上具有高度的一致性,避免了常见的伪影和闪烁问题。
LCVD技术原理
-
特征分离与子空间建模
-
LCVD通过区分肖像的内在特征(身份和外观)和外在特征(姿态和光照),将它们分别映射到预训练的图像到视频扩散模型(I2V)的不同特征子空间中。
-
使用阴影适配器将光照和姿态信息(阴影提示)映射到外在特征子空间,使用参考适配器将参考肖像映射到内在特征子空间。
-
-
阴影提示与3D网格渲染:利用DECA模型提取肖像的3D网格、姿态和光照参数,并通过球谐光照系数渲染阴影提示,为模型提供光照和姿态信息。
-
多条件分类器自由引导:在推理阶段,通过调整引导强度(ω),增强外在特征(光照和姿态)的影响,从而实现光照的精确控制,同时保持身份和外观的稳定性。
-
扩散模型与自监督训练
-
基于Stable Video Diffusion模型,LCVD通过自监督训练过程,将阴影提示和参考肖像的特征融合,生成与目标光照和姿态一致的高质量视频。
-
使用遮罩技术移除参考肖像的光照影响,确保生成的肖像能够适应新的光照条件。
-
-
长视频序列生成:通过扩散模型采样方法和帧重叠策略,LCVD能够生成任意长度的肖像动画,确保视频片段之间的平滑过渡。
-
运动对齐技术:为避免身份泄露和动画不一致,LCVD引入了运动对齐模块,确保生成的肖像与驱动视频的姿态完美对齐。
LCVD应用场景
-
虚拟会议与远程协作:在视频会议中,LCVD可以根据用户的姿态和表情实时生成高质量的虚拟肖像,并匹配虚拟背景的光照条件,提升远程协作的真实感和沉浸感。
-
虚拟现实(VR)与增强现实(AR):用于创建个性化的虚拟角色,使用户在VR/AR环境中能够以逼真的虚拟形象出现,并根据场景光照动态调整肖像光照,增强交互体验。
-
影视特效与动画制作:在影视后期制作中,LCVD可用于快速生成高质量的虚拟角色动画,支持光照条件的灵活调整,降低特效制作成本,提升制作效率。
-
虚拟主播与数字人:为虚拟主播和数字人提供实时动画驱动,使其能够根据直播场景的光照条件动态调整肖像光照,提升观众的观看体验。
-
游戏开发:在游戏开发中,LCVD可用于生成具有动态光照效果的虚拟角色,使角色能够根据游戏环境的光照条件实时调整外观,增强游戏的真实感和沉浸感。
-
社交媒体与内容创作:用户可以利用LCVD将静态照片转化为动态肖像,并根据需要调整光照效果,用于社交媒体分享或内容创作,提升内容的趣味性和吸引力。
LCVD项目入口
- arXiv技术论文:https://arxiv.org/pdf/2502.19894
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...