Phantom：字节跳动推出的视频生成框架

0 80

Phantom简介

Phantom是由字节跳动智能创作团队开发的一种创新视频生成框架，专注于主体一致性的视频生成任务（Subject-to-Video，S2V）。该框架通过跨模态对齐技术，结合文本和图像的双模态提示，从参考图像中提取主体元素并生成与文本指令相符的视频内容。Phantom基于文本到视频和图像到视频的架构，通过文本-图像-视频三元组数据进行学习，强调在视频生成过程中保持主体的连续性和一致性。它在面部ID保持和多主体视频生成等任务中表现出色，具有较高的主体一致性和文本响应能力，为视频生成领域提供了新的技术思路和解决方案。

Phantom主要功能

主体一致性视频生成：Phantom能够从参考图像中提取主体元素（如人物、动物、物体等），并根据文本指令生成与主体一致的视频内容。这种功能特别适用于需要保持主体特征的场景，例如虚拟试穿、角色动画生成等。
多主体视频生成：支持多主体参考图像输入，能够同时处理多个主体之间的交互和动作，生成复杂的多主体视频，例如人与动物互动、多人场景等。
面部ID保持：在生成视频时，Phantom能够有效保持人物面部的身份一致性，即使在复杂的动作和表情变化中，也能确保面部特征与参考图像高度一致。
跨模态对齐：通过文本、图像和视频的跨模态对齐，Phantom能够平衡文本和图像的双重提示，生成既符合文本描述又与参考图像视觉一致的视频内容。
高质量视频输出：在视频质量、动态效果和视觉一致性方面表现出色，能够生成具有高视觉吸引力和流畅动作的视频。

Phantom技术原理

跨模态对齐（Cross-modal Alignment）：Phantom通过构建文本-图像-视频三元组数据结构，实现文本、图像和视频之间的深度对齐。模型学习如何将文本描述与参考图像内容相结合，生成符合双重模态提示的视频。
双分支架构（Dual-branch Architecture）：Phantom采用双分支架构，分别处理视觉和文本特征。参考图像的特征通过视觉编码器提取后，与视频特征和文本特征分别拼接，分别输入到视觉分支和文本分支进行计算，从而实现多模态信息的融合。
数据增强与跨配对数据（Cross-paired Data）：为了避免模型简单复制参考图像，Phantom引入了跨配对数据，即从不同视频中匹配主体元素，降低视觉相似性，增强模型对文本提示的依赖，提升生成视频的多样性和创造性。
基于Diffusion模型的生成框架：Phantom基于扩散模型（Diffusion Models）的架构，利用其强大的生成能力和对噪声的建模能力，生成高质量、高一致性的视频内容。扩散模型通过逐步去除噪声来生成目标视频，确保视频的连贯性和主体一致性。
身份保持技术（Identity Preservation）：在面部ID保持方面，Phantom通过特定的面部特征编码和对齐技术，确保生成视频中的人物面部与参考图像高度一致。这一技术特别适用于需要保持人物身份的视频生成任务。
场景划分与数据优化（Scene Division and Data Optimization）：Phantom根据应用场景对数据进行划分，针对不同类型的主体和交互场景进行优化。同时，通过过滤低质量数据，提升数据的整体质量，从而提高模型的生成效果。