TokenVerse：从不同图像中提取特征并组合成新的图像

0 20

TokenVerse简介

TokenVerse 是由 Google DeepMind 团队开发的一种创新的多概念个性化生成方法，旨在从少量图像中提取并组合复杂的视觉概念。它基于预训练的文本到图像扩散模型（Diffusion Transformer），通过优化每个文本标记在调制空间中的方向，实现了对图像中多个视觉概念的解耦和灵活组合。TokenVerse 不仅能够从单张图像中提取多个概念，还能将这些概念无缝组合到新的图像生成中，支持包括物体、配饰、材质、姿势和光照等广泛的概念。该方法在个性化内容创作和故事创作领域展现了强大的应用潜力，为文本到图像生成技术开辟了新的方向。

TokenVerse主要功能

多概念个性化提取：TokenVerse 能够从单张或多张图像中提取多个复杂的视觉概念，包括物体、配饰、材质、姿势和光照条件等。这些概念可以被独立解耦，为后续的图像生成提供灵活的组合能力。
灵活的概念组合：提取的概念可以通过简单的文本描述进行组合，生成全新的图像。用户可以根据需求将不同图像中的概念无缝融合，创造出多样化的视觉内容。
无需额外监督或分割掩码：与现有方法不同，TokenVerse 不依赖分割掩码或边界框等额外监督信息，仅通过图像的描述性文本即可实现概念的解耦和个性化生成。
支持非物体概念：除了物体外，TokenVerse 还能够处理如姿势、材质和光照等非物体概念，进一步扩展了个性化生成的范围。
模块化生成：TokenVerse 的生成过程高度模块化，支持从不同图像中提取的概念的自由组合，为个性化内容创作提供了极大的灵活性。

TokenVerse技术原理

基于调制空间的优化框架：TokenVerse 利用预训练的文本到图像扩散模型（Diffusion Transformer, DiT）的调制空间（modulation space），通过优化每个文本标记的调制向量，实现对图像中视觉概念的局部控制和语义修改。
每 token 调制空间（M+）：TokenVerse 引入了每 token 调制空间（M+），通过为每个文本标记单独调整调制向量，实现对特定概念的局部修改，避免了全局调制空间中非局部修改的问题。
概念隔离损失：为了防止从不同图像中提取的概念之间相互干扰，TokenVerse 引入了概念隔离损失（concept isolation loss）。该损失通过将概念图像与随机生成的图像拼接，并合并它们的描述，训练模型仅对概念图像中与文本匹配的部分进行修改。
联合优化与模块化训练：TokenVerse 通过联合优化所有文本标记的调制向量，同时保持每个向量对特定概念的独立性。这种方法支持从不同图像中提取的概念的无缝组合，而无需联合训练。
两阶段优化：TokenVerse 的训练分为两个阶段：首先优化全局调制方向以捕捉概念的粗略特征，然后通过优化每块调制向量进一步细化概念的细节，从而实现更精准的个性化生成。
文本和图像增强：为了提高模型对概念的区分能力，TokenVerse 在训练中使用了文本和图像增强技术，如随机翻转、镜像和文本描述的变体生成，进一步提升模型的泛化能力。