Fractal Generative Models：谷歌等推出的分形图像生成模型

0 40

Fractal Generative Models 简介

Fractal Generative Models 是由 MIT CSAIL 和 Google DeepMind 联合开发的一种新型图像生成模型，它通过递归调用原子生成模块构建出具有分形结构的复杂架构，展现出跨层级的自相似性。该模型以自回归模型作为原子模块，采用分治策略高效处理高维数据分布，尤其在像素级图像生成任务中表现出色。它不仅在似然估计方面取得了优异性能，还在生成高质量图像方面展现出巨大潜力。Fractal Generative Models 的开发团队通过这一创新方法，为生成建模领域开辟了新的研究方向，有望推动非顺序数据建模的进一步发展。

Fractal Generative Models：谷歌等推出的分形图像生成模型

Fractal Generative Models 主要功能

高维数据建模：通过递归调用原子生成模块，能够高效处理高维数据分布，如像素级图像生成、分子结构生成等，尤其适合处理具有内在结构的非顺序数据。
像素级图像生成：在图像生成任务中，能够逐像素生成高质量图像，同时提供准确的似然估计。该模型在高分辨率图像生成中表现出色，生成的图像具有高保真度和细节丰富度。
条件像素级预测：支持基于已知条件的像素级预测，例如图像修复（inpainting）、外推（outpainting）和类别条件编辑，能够根据类别标签生成符合语义的内容。
高效计算能力：采用分治策略将复杂问题分解为多个子问题，显著降低计算成本，使高分辨率图像生成变得更加高效。
可扩展性和灵活性：模型架构基于分形原理，可通过增加递归层级或调整原子模块来扩展模型能力，适用于多种数据类型和任务。

Fractal Generative Models 技术原理

分形架构：借鉴数学中的分形概念，通过递归调用原子生成模块构建自相似的复杂架构。每个层级的生成模块都会产生多个输出，用于下一层级的输入，从而实现指数级的输出扩展。
原子生成模块：使用自回归模型作为原子模块，通过递归分解联合分布，将高维数据建模问题分解为多个小问题，逐层降低计算复杂度。
分治策略：将数据分解为更小的子集（如图像中的小块），分别建模后再组合，从而高效处理大规模数据。例如，在图像生成中，先对图像块建模，再对像素建模。
递归调用：通过递归调用生成模块，实现从粗到细的多层级建模。每个层级的模块负责建模不同尺度的数据结构，从而捕捉数据的内在层次性。
端到端训练：模型通过端到端的方式进行训练，从原始数据输入到最终像素级输出，所有层级的生成模块共同优化，确保整体性能。
条件生成与指导：在条件生成任务中，模型支持分类器自由引导（CFG）和温度缩放技术，通过调整条件和非条件生成的权重，生成符合语义的高质量内容。