MAETok：卡内基梅隆大学等推出的新型自动编码器

0 20

MAETok简介

MAETok是由卡内基梅隆大学、香港大学、北京大学、威廉玛丽学院、AMD和穆罕默德·本·扎耶德人工智能大学的研究团队共同开发的一种新型自动编码器（AE），专门用于扩散模型的图像生成任务。它通过掩码建模（Masked Autoencoders, MAE）技术，在编码器中随机掩码部分图像块，并在解码器中重建这些块的特征，从而学习到更具区分性和语义丰富的潜在空间。MAETok摒弃了传统变分自编码器（VAE）中的变分约束，仅依靠掩码建模即可实现高效的图像生成，同时显著提高了训练速度和推理效率。在ImageNet数据集上，MAETok仅使用128个token就能达到与以往最佳模型相当的生成性能，展现出其在高分辨率图像合成任务中的强大潜力。

MAETok主要功能

高效图像生成：MAETok能够在高分辨率图像生成任务中实现高效的图像合成，显著提高了生成质量和速度。
潜在空间学习：通过掩码建模技术，MAETok能够学习到更具区分性和语义丰富的潜在空间，提升扩散模型的性能。
重建保真度：在保持高生成质量的同时，MAETok还能够实现高保真度的图像重建，确保生成图像的细节和真实感。
高效训练和推理：MAETok在训练和推理过程中显著减少了计算开销，提高了训练速度和推理吞吐量。

MAETok技术原理

掩码建模（Masked Modeling）：
- 掩码图像块：在编码器中随机掩码一定比例的图像块，这些掩码块在解码器中需要被重建。
- 自监督学习：通过掩码建模，MAETok在自监督学习的框架下，能够学习到更具语义信息的潜在空间。
Vision Transformer（ViT）架构：
- 编码器和解码器：MAETok采用了Vision Transformer架构，编码器将图像分割成小块并转换为嵌入向量，解码器则负责重建这些嵌入向量。
- 位置编码：在图像块和潜在token上分别应用2D和1D的位置编码，以保留空间信息和抽象特征。
辅助浅层解码器：
- 多目标预测：在训练过程中，辅助浅层解码器用于预测掩码块的多种目标特征，如HOG特征、DINOv2特征和CLIP嵌入等。
- 高效训练：这些辅助解码器引入了额外的训练目标，帮助MAETok学习到更具区分性的潜在表示。
潜在空间的高斯混合模型（GMM）拟合：
- 模式数量减少：通过GMM拟合，MAETok能够学习到具有更少模式的潜在空间，这些模式数量的减少有助于降低扩散模型的训练损失，提高生成质量。
- 理论分析：文章通过理论分析证明了具有更少模式的潜在空间能够实现更好的扩散模型性能。
像素解码器微调：
- 冻结编码器：在掩码建模训练后，冻结编码器以保持其学习到的潜在表示，仅微调像素解码器以恢复高保真度的图像重建。
- 多阶段训练：这种多阶段训练方法确保了潜在空间的语义信息不会在微调过程中丢失，同时提高了重建质量。