TCAN：从视频中提取人物的姿态动作并将其应用到静态图片上

0 50

TCAN简介

TCAN是由韩国高等科学技术院（KAIST）的研究团队开发的一种先进的人类图像动画技术。这项技术利用扩散模型，通过姿势引导生成具有时间一致性的视频动画。TCAN特别强化了对现成姿势检测器误差的鲁棒性，并在时间上保持动画的连贯性。通过冻结预训练的ControlNet和引入LoRA到UNet层，TCAN能够将姿势和外观特征在潜在空间中对齐，同时通过新增的时间层和姿势驱动的温度图，进一步提升了视频合成的稳定性和质量。

TCAN主要功能

❶姿势驱动的动画生成：TCAN能够根据给定的源图像和驱动视频，将视频中的动作转移到源图像中的人体上。
❷时间一致性：确保在动画过程中，人物的外观和背景保持时间上的连贯性，即使在动作变化时也能保持一致性。
❸错误姿势的鲁棒性：即使在使用现成的姿势检测器时出现错误，TCAN也能够生成合理的动画，减少了对精确姿势检测的依赖。
❹多姿态适应性：TCAN能够适应不同的人物姿态，包括极端或不寻常的比例，如chibi风格的动画角色。

TCAN技术原理

❶预训练ControlNet的使用：TCAN利用预训练的ControlNet来获取姿势信息，而不进行微调，以保持其在大量数据上学习到的知识。
❷LoRA（Low-Rank Adaptation）：在UNet层中应用LoRA技术，以适应姿势和外观特征，解决冻结ControlNet带来的特征对齐问题。
❸时间层的引入：通过在ControlNet中加入时间层，增强了模型对姿势估计误差的鲁棒性，通过时间维度的信息来平滑异常姿势。
❹姿势驱动的温度图（Pose-driven Temperature Map, PTM）：利用姿势信息设计的温度图，用于在生成过程中保持背景的静态性，减少背景闪烁。
❺两阶段训练策略：TCAN采用两阶段训练方法，第一阶段专注于图像级别的风格和姿势匹配，第二阶段引入时间层进行视频级别的训练。
❻多扩散（MultiDiffusion）：在生成长期视频时，TCAN使用多扩散技术，通过重叠某些姿势序列并平均预测的噪声，来保持时间上的连贯性。

TCAN应用场景

❶社交媒体：用户可以将自己的静态照片转换成动态视频，用于社交媒体分享。
❷娱乐产业：为电影、电视和其他视觉媒体制作逼真的动画效果。
❸虚拟现实：在虚拟现实环境中生成与用户动作同步的虚拟角色。
❹游戏开发：创造具有自然动作和反应的非玩家角色（NPC）。
❺教育和培训：模拟人物动作进行教学，如体育训练或舞蹈指导。
❻广告制作：制作动态广告，使产品展示更加生动吸引人。