Phantom-Wan：字节跳动推出的视频生成框架

0 20

Phantom-Wan项目简介

Phantom-Wan是由字节跳动开发的视频生成框架，专注于从参考图像中提取主题元素并根据文本指令生成主题一致的视频。它通过跨模态对齐技术，结合文本、图像和视频的三元组数据进行训练，有效解决了图像内容泄露和多主体混淆的问题。Phantom-Wan在单主体和多主体视频生成任务中表现出色，尤其在面部ID保持方面具有显著优势，超越了现有的商业解决方案。该框架不仅为视频生成领域提供了新的技术路径，还为虚拟试穿、互动故事讲述等工业应用提供了广阔前景。

Phantom-Wan主要功能

主题一致的视频生成：
- 从参考图像中提取主体元素，并根据文本指令生成与主体一致的视频。
- 支持单主体和多主体的视频生成，确保生成视频中的主体与参考图像高度一致。
高质量视频生成：
- 生成的视频在视觉效果上具有高保真度，同时保持文本描述的准确性。
- 通过跨模态对齐技术，确保视频内容与文本和图像的双重模态提示深度对齐。
面部ID保持：
- 在生成视频时保持人物面部的高相似度，特别适用于需要身份一致性的场景，如虚拟试穿和广告制作。
灵活的文本响应：
- 根据文本提示灵活调整视频内容，支持复杂的场景描述和动作指令。
统一的生成框架：
- 提供一个统一的模型架构，支持从单主体到多主体的视频生成，无需额外的模型调整。

Phantom-Wan技术原理

跨模态对齐：
- 使用文本-图像-视频三元组数据进行训练，确保生成的视频同时对齐文本和图像内容。
- 通过动态信息注入策略，在注意力计算中插入参考图像特征，实现文本和图像的深度对齐。
改进的MMDiT架构：
- 基于MMDiT架构，结合3D VAE和CLIP对参考图像进行编码，提取低层次细节信息和高层次语义信息。
- 使用窗口自注意力机制，降低计算成本，同时保持视频和图像特征的有效融合。
数据管道优化：
- 构建了从长视频中提取单场景片段的数据管道，通过过滤、字幕生成、主体检测和匹配等步骤，确保训练数据的质量和多样性。
- 通过跨视频多主体配对，避免生成视频时的“复制粘贴”问题，确保主体在运动中的连续性和一致性。
动态特征注入：
- 在每个MMDiT块中动态注入参考图像特征，支持单主体和多主体的灵活输入。
- 通过自注意力机制，确保视频生成过程中主体特征与文本描述的紧密对齐。
高效的训练和推理：
- 使用修正流（Rectified Flow, RF）构建训练目标，优化噪声分布采样，提高训练效率。
- 在推理阶段，通过调整文本提示和优化采样策略，确保生成视频的质量和响应速度。