RealisHuman:专门用于细化生成图像中畸形的人体部位
RealisHuman简介
RealisHuman是一种创新的后处理框架,专门用于细化生成图像中畸形的人体部位,如手和脸。该框架采用两阶段方法:首先,它利用原始畸形部位作为参考,通过Part Detail Encoder和DINOv2提取详细信息,并结合3D姿态估计结果,生成结构准确且细节丰富的真实人体部位;其次,通过重新绘制周围区域,将修正后的人体部位无缝地融合回原始图像中,确保平滑且自然的过渡。RealisHuman在保持与原始图像一致的细节的同时,有效处理小部位细化,并展现出强大的泛化能力,适用于不同风格的图像。通过在UBC Fashion数据集上的实验,RealisHuman显著提升了生成图像中人体部位的真实性和合理性,降低了Fréchet Inception Distance(FID)分数,提高了关键点检测器的置信度分数,证明了其在人体部位细化任务中的优越性能.

RealisHuman主要功能
- 细化畸形人体部位:能够对生成图像中畸形的人体部位(如手和脸)进行精细化修复,使其结构准确且细节丰富.
- 保持原始图像细节一致:在细化过程中,确保修正后的人体部位与原始图像在细节上保持一致,如肤色、纹理等.
- 处理小部位细化:有效处理图像中较小的人体部位细化任务,如小手的修复,能够细致地恢复其细节和形状.
- 泛化能力强:适用于不同风格的图像,包括卡通、素描等,展现出强大的适应性和泛化能力.
- 无缝融合:将修正后的人体部位无缝地融合回原始图像中,避免出现剪切粘贴的痕迹,使整体图像自然、协调.
RealisHuman技术原理
- 两阶段方法:
- 第一阶段:生成真实人体部位.利用原始畸形部位作为参考,通过Part Detail Encoder和DINOv2提取详细信息,结合3D姿态估计结果,生成结构准确且细节丰富的人体部位图像.
- 第二阶段:无缝融合人体部位.将修正后的人体部位放回原始位置,遮盖周围区域,训练模型以实现人体部位与周围区域的无缝融合,通过重新绘制过渡区域,确保平滑且自然的过渡.
- Part Detail Encoder:与原始Stable Diffusion(SD)的UNet结构相同,包含自注意力和交叉注意力层,用于整合参考图像中的详细信息,保留细粒度细节,增强生成人体部位的真实性.
- DINOv2:用于获取参考图像的图像嵌入,通过交叉注意力机制将语义级特征补充到模型中,进一步提升生成效果.
- 3D姿态估计:从原始畸形部位提取3D姿态估计结果,作为生成人体部位图像的指导,确保姿态准确且真实.
- Inpainting U-Net:在第二阶段用于重新绘制人体部位与背景之间的过渡区域,通过训练学习如何将修正后的人体部位与周围区域自然融合,避免产生不协调的元素.
RealisHuman应用场景
- 虚拟角色生成:在游戏、动画或虚拟现实等领域,用于生成具有真实手部和面部细节的虚拟角色,提升角色的逼真度和沉浸感.
- 影视特效制作:在影视后期制作中,修复或优化演员的手部和面部特写镜头,使其更加符合导演的创意要求或弥补拍摄时的不足.
- 人像摄影后期处理:对人像照片中手部或面部的畸形部分进行修复,如修复因拍摄角度或光线问题导致的手部变形,使照片更加完美.
- 医疗影像重建:在医学领域,辅助重建患者手部或面部的医学影像,为医生提供更准确的诊断依据或用于术前规划.
- 艺术创作:为艺术家提供工具,帮助他们在创作过程中生成具有真实人体部位细节的图像,拓展艺术表现的可能性.
- 时尚与美容行业:在时尚杂志、广告或美容产品展示中,用于生成具有精致手部和面部细节的模特图像,提升视觉效果和产品吸引力.
RealisHuman项目入口
- Github代码库:https://github.com/Wangbenzhi/RealisHuman
- arXiv技术论文:https://arxiv.org/pdf/2409.03644
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...