LBM：在单步推理中完成从源图像到目标图像的翻译任务

0 40

LBM简介

Latent Bridge Matching (LBM) 是由 Jasper Research 团队提出的一种新型图像到图像翻译方法。该方法基于桥匹配技术，在潜在空间中实现高效的图像翻译，仅需单步推理即可生成高质量的结果。LBM 通过在潜在空间中构建随机插值并估计漂移函数，能够快速将源图像映射到目标图像，同时保持生成结果的多样性和真实性。它在物体移除、深度和表面法线估计以及图像重照明等多个任务上表现出色，尤其在高分辨率图像处理方面展现了强大的可扩展性。此外，LBM 的条件框架还能实现可控的图像重照明和阴影生成，为图像编辑和合成提供了新的可能性。

LBM主要功能

高效图像到图像翻译：LBM 能够在单步推理中完成从源图像到目标图像的翻译任务，显著提高了图像翻译的效率，适用于实时应用。
多任务通用性：该方法在多种图像翻译任务中表现出色，包括物体移除、深度和表面法线估计、图像重照明等，展示了其广泛的适用性。
可控图像编辑：通过条件框架，LBM 支持可控的图像重照明和阴影生成，可以根据输入的光照条件或背景图像生成符合要求的输出。
高分辨率图像处理：LBM 基于潜在空间操作，能够有效处理高分辨率图像，解决了传统方法在高维数据上的计算瓶颈。
生成多样性和真实性：LBM 的随机性使其能够生成多样化的输出，同时保持与输入图像的一致性和真实性。

LBM技术原理

桥匹配技术：LBM 基于桥匹配（Bridge Matching）原理，通过构建一个从源分布 $π_{0}$ 到目标分布 $π_{1}$ 的随机插值 $x_{t}$ ，并估计其漂移函数 $v_{θ}$ ，从而实现两个分布之间的高效传输。
潜在空间操作：为了提高效率和可扩展性，LBM 将图像嵌入到预训练的变分自编码器（VAE）的潜在空间中，降低数据维度并减少计算成本。
随机微分方程（SDE）：LBM 使用随机微分方程（SDE）来描述插值 $x_{t}$ 的演化过程，并通过神经网络回归 SDE 的漂移项，从而实现从源分布到目标分布的样本生成。
条件框架：LBM 引入条件变量 $c$ （如光照图或背景图像），通过条件化漂移函数 $v_{θ}$ 来实现可控的图像生成，支持复杂的图像编辑任务。
像素级损失函数：在训练过程中，LBM 使用像素级损失函数（如 LPIPS）来优化生成结果的质量，确保生成图像与目标图像在视觉上的一致性。
时间步采样策略：LBM 采用特定的时间步分布 $π (t)$ ，在训练时集中学习关键时间步，从而在推理时实现高效的单步生成。