GigaTok:用于自回归图像生成的视觉分词器

GigaTok项目简介

GigaTok是由香港大学和字节跳动联合开发的项目,旨在通过扩展视觉分词器的参数规模来提升自回归图像生成的性能。该项目首次提出了一种语义正则化方法,通过将分词器特征与预训练的视觉编码器对齐,有效解决了图像重建与下游生成质量之间的矛盾。GigaTok还探索了1D分词器、非对称模型扩展和熵损失等关键技术,成功将分词器扩展到30亿参数规模,并在图像重建、下游自回归生成和表示学习方面取得了最先进的性能。这一成果为未来视觉生成模型的发展提供了新的方向,也为大规模视觉模型的训练和优化提供了重要参考。

GigaTok:用于自回归图像生成的视觉分词器

GigaTok主要功能

  1. 提升图像重建质量:通过扩展视觉分词器的参数规模,GigaTok能够更精确地将图像压缩成紧凑的离散潜在标记,从而提高图像的重建质量。
  2. 优化下游生成性能:解决了图像重建与下游生成质量之间的矛盾,使得在提升重建质量的同时,下游自回归模型的生成性能也得到显著提升。
  3. 增强表示学习能力:通过语义正则化,GigaTok能够生成更具语义一致性的潜在空间,从而提升下游模型的表示学习能力,为多模态理解与生成提供更好的基础。
  4. 支持大规模扩展:通过1D分词器、非对称模型扩展和熵损失等技术,GigaTok能够有效扩展到30亿参数规模,为处理更复杂的图像生成任务提供支持。

GigaTok技术原理

  1. 语义正则化
    • 通过将分词器的特征与预训练的视觉编码器(如DINOv2)的语义一致特征对齐,约束分词器的潜在空间复杂度。
    • 在分词器训练过程中加入语义正则化损失,防止分词器学习过于复杂的潜在标记依赖关系,从而提升下游AR模型的学习效率。
  2. 1D分词器
    • 使用1D分词器而不是2D分词器,去除2D归纳偏差,提升分词器的可扩展性。
    • 通过Q-Former模块,将2D输入特征转换为1D潜在标记,再将1D标记转换回2D特征进行图像重建。
  3. 非对称模型扩展
    • 优先扩展解码器而不是编码器,因为解码器在从有损潜在代码中重建图像时面临更大的挑战。
    • 在扩展过程中,保持解码器的参数规模大于编码器,以更高效地利用参数。
  4. 熵损失
    • 引入熵损失来稳定训练过程,促进代码本的高利用率。
    • 通过最小化量化误差的期望和最大化代码本向量的均匀使用,解决大规模分词器训练中的收敛问题。
  5. AR探测
    • 提出一种轻量级的下游生成AR模型(AR探测),作为评估分词器性能的代理。
    • 通过训练一个小型AR模型(如111M参数的Llama风格模型),快速评估分词器对下游生成模型的影响,显著提高评估效率。

GigaTok应用场景

  1. 高质量图像生成:用于生成高分辨率、高质量的图像,满足艺术创作、广告设计等领域对图像质量的高要求。
  2. 图像编辑与修复:通过精确的图像重建和生成能力,修复老照片、去除图像中的瑕疵或进行创意编辑。
  3. 虚拟现实与游戏开发:快速生成逼真的虚拟场景和游戏中的图像资源,提升用户体验。
  4. 多模态内容创作:结合文本或其他模态信息,生成与之匹配的图像内容,用于教育、娱乐等多模态应用。
  5. 图像压缩与传输:高效压缩图像为离散标记,降低存储和传输成本,适用于移动设备和网络应用。
  6. 自定义图像风格化:根据用户需求生成具有特定风格的图像,如油画风格、动漫风格等,满足个性化需求。

GigaTok项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...