BiGR：香港大学等推出的新型条件图像生成模型

0 30

BiGR简介

BiGR是由香港大学、香港科技大学、云天励飞和香港中文大学联合推出的一种创新的条件图像生成模型，它通过使用紧凑的二进制潜在代码来增强图像的生成质量和表示能力。作为首个将生成和判别任务统一在同一框架下的条件生成模型，BiGR采用了二进制分词器、掩码建模机制和二进制转码器，并通过一种新颖的基于熵的有序采样方法来提高图像生成的效率。该模型在多种视觉任务上展现出了卓越的零样本泛化能力，包括图像修复、扩展、编辑等，为图像生成领域带来了新的突破。

BiGR主要功能

高质量图像生成：BiGR能够生成高分辨率且视觉上吸引人的图像。
增强的表示能力：模型生成的特征具有更好的区分性，可用于下游的判别任务，如分类。
零样本泛化：BiGR能够在无需额外训练的情况下，对多种视觉任务进行零样本泛化，包括图像修复、扩展、编辑、插值和丰富化。

BiGR技术原理

二进制分词器（Binary Tokenizer）：将像素级图像转换为二进制潜在代码序列，实现无查找量化。
掩码建模机制（Masked Modeling）：通过部分掩码的输入标记，使模型能够预测被掩码的标记，增强了全局视觉信息的捕获能力。
二进制转码器（Binary Transcoder）：将连续特征转换为伯努利分布的二进制代码，使用伯努利扩散过程生成概率。
基于熵的有序采样方法（Entropy-Ordered Sampling）：在生成过程中，根据预测的伯努利分布概率的熵的大小来决定解掩码的顺序，从而提高生成效率。
平均池化（Average Pooling）：通过对模型中间特征执行平均池化来获取图像的全局表示，用于线性探针评估。
统一的框架：BiGR是首个将生成和判别任务统一在同一框架下的条件生成模型，通过建模紧凑的二进制潜在代码，在两个任务上都实现了改进的性能。
高效的推理过程：由于迭代解掩码过程中只需要少量的采样迭代，BiGR在图像生成上比扩散模型和自回归模型更高效。