RealisHuman：专门用于细化生成图像中畸形的人体部位

0 90

RealisHuman简介

RealisHuman是一种创新的后处理框架，专门用于细化生成图像中畸形的人体部位，如手和脸。该框架采用两阶段方法：首先，它利用原始畸形部位作为参考，通过Part Detail Encoder和DINOv2提取详细信息，并结合3D姿态估计结果，生成结构准确且细节丰富的真实人体部位；其次，通过重新绘制周围区域，将修正后的人体部位无缝地融合回原始图像中，确保平滑且自然的过渡。RealisHuman在保持与原始图像一致的细节的同时，有效处理小部位细化，并展现出强大的泛化能力，适用于不同风格的图像。通过在UBC Fashion数据集上的实验，RealisHuman显著提升了生成图像中人体部位的真实性和合理性，降低了Fréchet Inception Distance（FID）分数，提高了关键点检测器的置信度分数，证明了其在人体部位细化任务中的优越性能.

RealisHuman主要功能

细化畸形人体部位：能够对生成图像中畸形的人体部位（如手和脸）进行精细化修复，使其结构准确且细节丰富.
保持原始图像细节一致：在细化过程中，确保修正后的人体部位与原始图像在细节上保持一致，如肤色、纹理等.
处理小部位细化：有效处理图像中较小的人体部位细化任务，如小手的修复，能够细致地恢复其细节和形状.
泛化能力强：适用于不同风格的图像，包括卡通、素描等，展现出强大的适应性和泛化能力.
无缝融合：将修正后的人体部位无缝地融合回原始图像中，避免出现剪切粘贴的痕迹，使整体图像自然、协调.

RealisHuman技术原理

两阶段方法：
- 第一阶段：生成真实人体部位.利用原始畸形部位作为参考，通过Part Detail Encoder和DINOv2提取详细信息，结合3D姿态估计结果，生成结构准确且细节丰富的人体部位图像.
- 第二阶段：无缝融合人体部位.将修正后的人体部位放回原始位置，遮盖周围区域，训练模型以实现人体部位与周围区域的无缝融合，通过重新绘制过渡区域，确保平滑且自然的过渡.
Part Detail Encoder：与原始Stable Diffusion（SD）的UNet结构相同，包含自注意力和交叉注意力层，用于整合参考图像中的详细信息，保留细粒度细节，增强生成人体部位的真实性.
DINOv2：用于获取参考图像的图像嵌入，通过交叉注意力机制将语义级特征补充到模型中，进一步提升生成效果.
3D姿态估计：从原始畸形部位提取3D姿态估计结果，作为生成人体部位图像的指导，确保姿态准确且真实.
Inpainting U-Net：在第二阶段用于重新绘制人体部位与背景之间的过渡区域，通过训练学习如何将修正后的人体部位与周围区域自然融合，避免产生不协调的元素.