3DV-TON：阿里推出的一种新型视频试穿技术

0 40

3DV-TON项目简介

3DV-TON是由阿里巴巴集团达摩院、湖畔实验室以及浙江大学联合开发的一种新型视频试穿技术。该技术通过纹理化的3D网格作为显式帧级指导，利用扩散模型生成高质量且时间连贯的视频试穿效果。它能够有效解决现有方法在处理复杂服装图案和多样化人体姿态时的局限性，同时保持服装纹理的一致性和视觉质量。开发团队通过创新的3D指导管道和动态矩形掩码策略，显著提升了视频试穿的准确性和连贯性，并构建了高分辨率的HR-VVT基准数据集以推动相关研究的发展。3DV-TON在实验中展现出卓越的性能，为虚拟试穿领域带来了新的突破。

3DV-TON主要功能

高质量视频试穿：能够将目标服装高保真地替换到视频中的人物身上，同时保持服装的纹理细节和视觉质量。
时间连贯性：生成的试穿视频在时间上具有高度的一致性，即使在复杂的人体姿态变化和视角切换中，服装纹理和运动也能保持自然流畅。
适应多样化场景：支持多种类型的服装（如上衣、下装、连衣裙等）和复杂的背景环境，能够处理不同的光照条件和人体姿态。
隐私保护：在训练过程中排除面部区域，确保用户隐私，适用于学术研究和商业应用。

3DV-TON技术原理

纹理化3D网格指导：
- 使用纹理化的3D网格作为显式的帧级指导，通过单图像3D重建技术生成与原始视频同步的动态3D网格，为模型提供一致的外观和运动参考。
- 3D网格的纹理信息直接来源于图像试穿结果，确保服装纹理在视频序列中保持一致。
动态矩形掩码策略：
- 通过矩形掩码防止服装信息在人体运动过程中泄露，避免因信息泄露导致的试穿失败或视觉不自然。
- 结合服装图像和试穿图像作为参考，提供服装和环境上下文，增强生成效果。
扩散模型架构：
- 基于Stable Diffusion框架，结合变分自编码器（VAE）和去噪UNet，通过扩散过程生成高质量的试穿结果。
- 引入指导特征提取器，提取服装图像和试穿图像的特征，并通过自注意力机制进行融合。
3D网格动画化：
- 使用视频中估计的SMPL姿态参数驱动3D网格动画，确保生成的试穿视频与原始视频在运动上保持一致。
- 优化SMPL模型的形状和相机参数，以适应不同场景下的姿态和视角变化。
高分辨率基准数据集：
- 构建了高分辨率的HR-VVT基准数据集，包含130个视频，涵盖多种服装类型和复杂场景，用于更好地评估视频试穿方法的性能。