TCAN简介
TCAN是由韩国高等科学技术院(KAIST)的研究团队开发的一种先进的人类图像动画技术。这项技术利用扩散模型,通过姿势引导生成具有时间一致性的视频动画。TCAN特别强化了对现成姿势检测器误差的鲁棒性,并在时间上保持动画的连贯性。通过冻结预训练的ControlNet和引入LoRA到UNet层,TCAN能够将姿势和外观特征在潜在空间中对齐,同时通过新增的时间层和姿势驱动的温度图,进一步提升了视频合成的稳定性和质量。
TCAN主要功能
❶姿势驱动的动画生成:TCAN能够根据给定的源图像和驱动视频,将视频中的动作转移到源图像中的人体上。
❷时间一致性:确保在动画过程中,人物的外观和背景保持时间上的连贯性,即使在动作变化时也能保持一致性。
❸错误姿势的鲁棒性:即使在使用现成的姿势检测器时出现错误,TCAN也能够生成合理的动画,减少了对精确姿势检测的依赖。
❹多姿态适应性:TCAN能够适应不同的人物姿态,包括极端或不寻常的比例,如chibi风格的动画角色。
TCAN技术原理
❶预训练ControlNet的使用:TCAN利用预训练的ControlNet来获取姿势信息,而不进行微调,以保持其在大量数据上学习到的知识。
❷LoRA(Low-Rank Adaptation):在UNet层中应用LoRA技术,以适应姿势和外观特征,解决冻结ControlNet带来的特征对齐问题。
❸时间层的引入:通过在ControlNet中加入时间层,增强了模型对姿势估计误差的鲁棒性,通过时间维度的信息来平滑异常姿势。
❹姿势驱动的温度图(Pose-driven Temperature Map, PTM):利用姿势信息设计的温度图,用于在生成过程中保持背景的静态性,减少背景闪烁。
❺两阶段训练策略:TCAN采用两阶段训练方法,第一阶段专注于图像级别的风格和姿势匹配,第二阶段引入时间层进行视频级别的训练。
❻多扩散(MultiDiffusion):在生成长期视频时,TCAN使用多扩散技术,通过重叠某些姿势序列并平均预测的噪声,来保持时间上的连贯性。
TCAN应用场景
❶社交媒体:用户可以将自己的静态照片转换成动态视频,用于社交媒体分享。
❷娱乐产业:为电影、电视和其他视觉媒体制作逼真的动画效果。
❸虚拟现实:在虚拟现实环境中生成与用户动作同步的虚拟角色。
❹游戏开发:创造具有自然动作和反应的非玩家角色(NPC)。
❺教育和培训:模拟人物动作进行教学,如体育训练或舞蹈指导。
❻广告制作:制作动态广告,使产品展示更加生动吸引人。
TCAN项目入口
- 官方项目主页:https://eccv2024tcan.github.io/
- GitHub代码库:https://github.com/eccv2024tcan/TCAN
- arXiv研究论文:https://arxiv.org/abs/2407.09012