FlexTok：苹果公司等推出的新型图像编码技术

0 70

FlexTok简介

FlexTok是由Apple公司和瑞士联邦理工学院洛桑分校（EPFL）的研究团队共同开发的一种创新图像编码技术。它能够将二维图像重新采样为灵活长度的一维标记序列，通过自回归解码器实现从粗到细的图像描述。与传统固定长度的标记化方法不同，FlexTok可以根据图像的复杂性动态调整标记数量，从而在图像重构和生成任务中实现更高的效率和质量。该技术在自回归图像生成中表现出色，尤其是在使用少量标记时仍能生成高质量图像，为图像生成领域带来了新的突破。

FlexTok主要功能

高效图像标记化：FlexTok将二维图像重新采样为灵活长度的一维标记序列，能够根据图像的复杂性动态调整标记数量，从而实现高效的图像压缩和表示。
自回归图像生成：FlexTok结合自回归模型（如Transformer），支持从粗到细的图像生成，能够根据类别或文本条件生成高质量图像，同时显著减少生成所需的标记数量。
语义和几何信息的层次化表示：通过嵌套dropout和因果注意力掩码，FlexTok的标记序列能够自然地从高层语义信息到细节信息进行编码，使得少量标记即可捕捉图像的核心特征。
适应性解码：FlexTok的解码器基于修正流模型，能够在不同标记数量下生成高质量的图像，即使在极端压缩率下也能保持良好的重构性能。
灵活的生成控制：根据生成任务的复杂性，FlexTok可以动态调整标记数量，简单任务使用较少标记，复杂任务使用更多标记，从而实现高效的计算资源分配。

FlexTok技术原理

一维标记序列生成：FlexTok使用Vision Transformer（ViT）结合寄存器（registers）将图像块嵌入转换为一维序列。寄存器作为编码器的读写存储单元，能够捕捉图像的整体信息。
有限标量量化（FSQ）：FlexTok采用有限标量量化技术对寄存器标记进行离散化处理，将连续的潜在空间映射到离散的标记上，从而实现高效的图像表示。
修正流解码器：解码器基于修正流模型，通过预测从噪声到原始图像的流来重构图像。这种设计能够在极低的标记数量下生成高质量的图像，并保持良好的语义一致性。
嵌套dropout与因果注意力掩码：FlexTok通过嵌套dropout在训练时随机丢弃部分寄存器标记，迫使模型学习将图像内容压缩到剩余标记中，从而实现从粗到细的层次化表示。同时，因果注意力掩码确保标记之间存在因果依赖关系，进一步优化标记序列的顺序性。
自回归生成：FlexTok结合自回归Transformer模型，逐个生成标记序列。生成的标记数量可以根据条件的复杂性动态调整，从而在简单和复杂任务之间实现高效的生成性能。