FitDiT：够生成穿着特定服装的逼真图像提升消费者的购物体验

0 20

FitDiT简介

FitDiT是由腾讯公司与复旦大学合作开发的一项先进技术，旨在通过Diffusion Transformers（DiT）提升虚拟试穿的真实感和细节保真度。该技术通过专注于高分辨率特征，解决了纹理感知和尺寸适配的挑战，使得虚拟试穿图像更加逼真。FitDiT不仅在定性和定量评估中超越了现有方法，特别是在处理复杂纹理和尺寸不匹配的服装方面表现出色，而且实现了快速的推理时间，为电子商务中的个性化购物体验带来了显著进步。

FitDiT主要功能

高保真虚拟试穿：FitDiT能够生成穿着特定服装的逼真图像，提升消费者的购物体验。
复杂纹理维护：技术能够精确复制服装的复杂纹理，如图案、文字和条纹。
尺寸感知适配：解决了跨类别或尺寸不匹配试穿场景中的服装信息泄露问题，生成的服装能够适应模特的实际尺寸。
高频细节增强：通过频率域学习增强服装的高频细节，提升细节的真实感。
快速推理时间：在保持高保真度的同时，实现了对单张图像快速推理的能力。

FitDiT技术原理

Diffusion Transformers (DiT)：FitDiT基于DiT架构，这种架构能够更关注于高分辨率的潜在特征，有助于细节的捕捉和再现。
服装纹理提取器：引入了服装纹理提取器，结合服装先验演化来微调特征，以更好地捕捉服装的丰富细节。
频率域学习：通过定制的频率距离损失来增强高频服装细节，减少合成图像与真实图像在频率域的差异。
扩张放松掩模策略：采用扩张放松掩模策略，适应服装的正确长度，防止在跨类别试穿时生成覆盖整个掩模区域的服装。
两阶段训练策略：
- 服装先验演化：通过微调GarmentDiT来增强服装特征提取。
- 频率学习：在DenoisingDiT训练中结合频率损失和去噪损失，进一步提升高频细节的准确性。
结构瘦身：对DiT结构进行优化，移除了对虚拟试穿任务影响较小的文本编码器，减少了模型的参数量并提高了训练和推理速度。
服装条件调制：使用图像编码器将给定的服装编码成服装图像嵌入，与时间步嵌入结合，以服装感知的方式调制DiT块中的特征。