RSIDiff：生成细节丰富、风格多样的高质量图像

0 90

RSIDiff简介

RSIDiff是由香港理工大学和中国科学院相关研究团队共同开发的一种创新的扩散模型优化方法。该方法通过递归自我训练（Recursive Self-Improvement, RSI）技术，利用模型自身生成的数据进行迭代优化，显著提升了文本到图像生成任务中的性能。开发团队提出三种关键策略：高质量提示词的构建与过滤、偏好采样以及基于分布的样本权重分配，有效解决了自我训练过程中常见的训练崩溃问题。RSIDiff在多个数据集上表现出色，生成的图像不仅细节丰富、风格多样，还高度符合人类偏好。这一成果为扩散模型的自我进化和性能提升提供了新的思路和方法。

RSIDiff主要功能

提升图像生成质量：通过递归自我训练，RSIDiff能够生成细节丰富、风格多样且符合人类偏好的高质量图像。
自我优化：利用模型自身生成的数据进行迭代优化，逐步提升模型的生成能力和稳定性。
减少生成幻觉：通过特定策略减少生成过程中出现的幻觉错误，如不合理的图像细节和分布偏移。
增强感知对齐：确保生成的图像与输入的文本提示高度一致，满足用户的期望和偏好。

RSIDiff技术原理

高质量提示词构建与过滤
- 提示词爬取：从用户活跃的图像合成网站爬取大量提示词。
- 过滤策略：基于提示词的清晰性、具体性和多样性进行过滤，确保生成的图像具有高感知对齐性。
- 具体实现：使用Llama 3进行提示词的清晰性和具体性过滤，并通过K-means聚类方法保证提示词的多样性。
偏好采样方法
- 自动化指标评估：利用各种自动化指标评估生成图像的偏好度，包括文本与图像的对齐度、美学质量和人类偏好得分。
- 样本选择：从生成的数据中挑选出符合人类偏好的样本，过滤掉存在幻觉错误的样本。
- 优化目标：通过偏好采样，确保训练数据集中的样本高度符合人类偏好，减少负面信息的累积。
基于分布的样本权重分配
- 分布评估：使用基础模型生成的数据作为参考，评估选定样本的分布偏移。
- 权重分配：对分布内的样本赋予较高权重，对分布外的样本进行惩罚，减少其对模型训练的负面影响。
- 具体实现：定义距离度量标准和权重衰减参数，确保模型在训练过程中逐步优化。
递归自我训练流程
- 生成合成数据：在每一轮训练中，模型根据当前提示词生成一组合成数据。
- 样本选择与权重计算：应用偏好采样和分布权重策略，选择并加权训练样本。
- 模型微调：使用加权后的训练样本对模型进行微调，更新模型参数。
- 迭代优化：重复上述过程，逐步提升模型性能，直至达到预设的训练轮次。