DisPose:提高可控人类图像动画的质量和一致性
DisPose简介
DisPose是由北京大学、中国科学技术大学、清华大学和香港科技大学的联合研究团队开发的一种创新插件式引导模块,旨在提高可控人类图像动画的质量和一致性。该模块通过从稀疏骨架姿态和参考图像中提取更通用和有效的控制信号,无需额外的密集输入,即可实现运动场引导和关键点对应。DisPose能够无缝集成到现有的动画模型中,通过混合ControlNet在保持模型参数不变的同时提升视频生成的质量,展现了其在艺术创作、社交媒体和数字人领域的广泛应用潜力。
DisPose主要功能
- 运动场引导:DisPose通过从稀疏运动场和参考图像生成密集运动场,提供区域级密集引导,同时保持对不同身体形状的泛化能力。
- 关键点对应:提取参考图像中与骨架姿态关键点对应的扩散特征,并将其转移到目标姿态,以保持身份信息的一致性。
- 插件式集成:作为一个插件式模块,DisPose可以无缝集成到现有的人类图像动画模型中,无需改变现有模型参数。
- 质量提升:通过混合ControlNet结构,DisPose在保持现有模型参数不变的情况下,提高了生成视频的质量和外观一致性。
DisPose技术原理
- 稀疏运动场估计:使用DWPose估计骨架姿态,然后基于关键点跟踪运动位移,生成轨迹图,并通过高斯滤波增强得到稀疏运动场。
- 密集运动场生成:通过条件运动传播(CMP)基于稀疏光流和参考图像预测密集运动场,避免了对生成角色的严格几何约束。
- 关键点特征提取:从参考图像中提取DIFT特征,并根据参考姿态中的关键点坐标初始化关键点对应图。
- 混合ControlNet架构:设计了一个混合ControlNet,允许在训练期间更新运动编码器、点编码器和混合ControlNet,同时保持现有U-Net架构模块冻结。
- 特征融合与引导:将运动场引导和关键点对应特征注入到潜在视频扩散模型中,实现精确的人类图像动画。
DisPose应用场景
- 电影和游戏制作:DisPose可以用于生成电影或游戏中的逼真人类动作,提高动画制作的效率和质量。
- 虚拟主播和社交媒体:利用DisPose技术,可以创建虚拟主播或社交媒体上的动态形象,增强互动性和吸引力。
- 艺术创作:艺术家可以利用DisPose将静态图像转化为动态艺术作品,拓宽艺术表达的边界。
- 教育和培训:在教育领域,DisPose可用于制作教学视频,模拟人物动作和行为,提高学习效果。
- 健身和运动分析:DisPose可以用于生成标准的健身动作视频,或分析运动员的动作技术,提供训练指导。
- 广告和营销:在广告行业中,DisPose可以用于创造吸引人的动态广告形象,提升品牌形象和市场影响力。
DisPose项目入口
- 项目主页:https://lihxxx.github.io/DisPose/
- GitHub代码库:https://github.com/lihxxx/DisPose
- arXiv技术论文:https://arxiv.org/pdf/2412.09349
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...