DisPose：提高可控人类图像动画的质量和一致性

0 30

DisPose简介

DisPose是由北京大学、中国科学技术大学、清华大学和香港科技大学的联合研究团队开发的一种创新插件式引导模块，旨在提高可控人类图像动画的质量和一致性。该模块通过从稀疏骨架姿态和参考图像中提取更通用和有效的控制信号，无需额外的密集输入，即可实现运动场引导和关键点对应。DisPose能够无缝集成到现有的动画模型中，通过混合ControlNet在保持模型参数不变的同时提升视频生成的质量，展现了其在艺术创作、社交媒体和数字人领域的广泛应用潜力。

DisPose主要功能

运动场引导：DisPose通过从稀疏运动场和参考图像生成密集运动场，提供区域级密集引导，同时保持对不同身体形状的泛化能力。
关键点对应：提取参考图像中与骨架姿态关键点对应的扩散特征，并将其转移到目标姿态，以保持身份信息的一致性。
插件式集成：作为一个插件式模块，DisPose可以无缝集成到现有的人类图像动画模型中，无需改变现有模型参数。
质量提升：通过混合ControlNet结构，DisPose在保持现有模型参数不变的情况下，提高了生成视频的质量和外观一致性。

DisPose技术原理

稀疏运动场估计：使用DWPose估计骨架姿态，然后基于关键点跟踪运动位移，生成轨迹图，并通过高斯滤波增强得到稀疏运动场。
密集运动场生成：通过条件运动传播（CMP）基于稀疏光流和参考图像预测密集运动场，避免了对生成角色的严格几何约束。
关键点特征提取：从参考图像中提取DIFT特征，并根据参考姿态中的关键点坐标初始化关键点对应图。
混合ControlNet架构：设计了一个混合ControlNet，允许在训练期间更新运动编码器、点编码器和混合ControlNet，同时保持现有U-Net架构模块冻结。
特征融合与引导：将运动场引导和关键点对应特征注入到潜在视频扩散模型中，实现精确的人类图像动画。