F-Lite：Freepik团队开发的文生图模型

0 30

F-Lite项目简介

F Lite是由Freepik团队开发的开源文本到图像生成模型，拥有100亿参数，基于扩散变换器（Diffusion Transformer）架构。它利用交叉注意力机制进行文本条件化，并结合了可学习寄存器令牌和残差值连接等现代架构改进，以提升性能和表示能力。该模型在Freepik内部数据集上训练，包含约8000万张版权安全的图像，使用64个H100 GPU训练约1.5到2个月。F Lite通过多阶段训练策略和后训练对齐技术，如监督微调（SFT）和基于人类反馈的强化学习（RLHF），进一步优化了图像质量和用户偏好一致性。尽管在高频细节和复杂场景生成方面存在一些局限性，但F Lite展示了在中等数据和计算资源下训练大规模生成模型的潜力，为研究人员提供了一个有价值的基线和工具。

F-Lite主要功能

文本到图像生成：
- 根据输入的文本提示生成高质量的图像。
- 能够生成多样化风格的图像，如插画、矢量图等。
高质量图像生成：
- 生成高保真度的图像，支持高分辨率（如1024×1024像素及以上）。
- 在复杂场景和多样化风格上表现出色。
版权安全的图像生成：
- 使用Freepik内部数据集训练，确保生成的图像符合版权要求，避免侵权问题。
可扩展性和灵活性：
- 提供一个开源的基线模型，方便研究人员和开发者在此基础上进行扩展和改进。
- 支持多阶段训练和后训练对齐，以适应不同的应用场景和需求。
用户偏好对齐：
- 通过监督微调（SFT）和基于人类反馈的强化学习（RLHF），使生成的图像更符合用户的审美和偏好。

F-Lite技术原理

扩散模型与Transformer架构：
- 基于扩散模型（Diffusion Models）的核心思想，通过逐步去除噪声来生成图像。
- 结合Transformer架构，利用其强大的序列建模能力，处理图像和文本的联合表示。
交叉注意力机制：
- 使用交叉注意力（Cross-Attention）将文本条件化整合到图像生成过程中。
- 图像令牌（image tokens）通过交叉注意力层关注文本令牌（text tokens），实现文本引导的图像生成。
文本编码优化：
- 使用预训练的T5-XXL编码器的中间层（第17层）嵌入作为文本条件，相比使用最后一层，训练效率提升了25-30%。
- 通过在线文本编码，动态提取文本特征，提高模型的适应性和灵活性。
架构改进：
- 引入可学习的寄存器令牌（Register Tokens），作为辅助容量，增强模型的表示能力。
- 使用残差值连接（Residual Value Connections），在不增加计算开销的情况下，提升模型性能。
- 采用2D旋转位置嵌入（RoPE），为图像补丁令牌编码空间信息，支持不同分辨率和宽高比。
多阶段训练策略：
- 低分辨率阶段：在256×256像素和512×512像素的图像上进行预训练，学习核心概念和文本对齐。
- 高分辨率阶段：在更高分辨率（≥1024×1024像素）的图像上进行微调，支持动态分辨率和宽高比。
- 后训练对齐：通过监督微调（SFT）和基于人类反馈的强化学习（RLHF），进一步优化图像质量和用户偏好一致性。
优化与稳定性技术：
- 使用AdamW优化器，并根据µ-Parameterization（µP）原则调整学习率和权重衰减，确保跨尺度的稳定超参数调整。
- 采用Warmup-Stable-Decay（WSD）学习率调度，通过预热、稳定和衰减阶段，灵活控制训练进度。
- 实现分辨率感知的时间步采样策略，动态调整噪声水平，结合均匀采样，确保模型在高分辨率下也能稳定训练。
数据处理与增强：
- 使用高质量的Freepik内部数据集，包含约8000万张版权安全的图像。
- 通过序列丢弃（Sequence Dropout）技术，随机丢弃部分图像补丁令牌，提高训练效率和收敛速度。