SPRIGHT:首个专注于空间关系的大规模视觉-语言数据集

SPRIGHT简介

SPRIGHT是由亚利桑那州立大学、英特尔实验室、Hugging Face、华盛顿大学和马里兰大学巴尔的摩分校的研究团队共同开发的首个专注于空间关系的大规模视觉-语言数据集。该团队通过重新描述约600万张来自4个广泛使用的视觉数据集的图像,创建了SPRIGHT。这些重新描述的图像强调了图像中的细粒度关系和空间特征,从而弥补了现有数据集中空间关系代表性不足的问题。SPRIGHT数据集的开发旨在提高文本到图像(T2I)模型在生成图像时的空间一致性,使模型能够更准确地遵循文本提示中指定的空间关系。通过在少量SPRIGHT数据上的微调,基线模型在多个空间推理基准测试中取得了显著的性能提升,验证了该数据集在改善T2I模型空间生成能力方面的有效性。

SPRIGHT:首个专注于空间关系的大规模视觉-语言数据集

SPRIGHT主要功能

  • 增强空间关系描述:通过重新描述图像,显著增加了描述中空间关系相关词汇的出现频率,如“left/right”“above/below”等,使每个重新描述的图像平均包含约3个空间短语,从而弥补了现有数据集中空间关系描述不足的问题,让模型能够更好地学习和理解图像中的空间布局.
  • 提升语言质量与对象识别:除了强化空间关系,SPRIGHT还提高了描述的整体语言质量,增加了名词、形容词、动词等的使用,使描述更加丰富和准确。同时,它能够识别出更多的对象,并增加这些对象在描述中的出现次数,有助于模型更全面地理解和生成图像中的各个组成部分.
  • 支持模型性能提升:作为训练数据,SPRIGHT能够有效提升T2I模型在空间一致性方面的性能。实验表明,仅使用约0.25%的SPRIGHT数据,就在T2I-CompBench空间分数上实现了22%的提升,并且在FID和CMMD分数上也有显著改善,证明了其对模型生成质量的积极影响.
  • 促进空间关系研究:为研究影响T2I模型空间一致性的因素提供了有力支持。通过在SPRIGHT数据集上的实验,可以探索长描述、空间与一般描述之间的权衡、CLIP文本编码器的层激活模式等多种因素对模型空间生成能力的影响,为深入理解和改进T2I模型的空间推理能力提供了实验依据和研究方向.

SPRIGHT技术原理

  • 数据集构建
    • 图像选择:从CC-12M、Segment Anything、COCO验证集和LAION-Aesthetics等4个广泛使用的视觉数据集中选取约600万张图像作为基础数据。这些数据集涵盖了多样化的图像内容,为构建具有广泛代表性的空间关系数据集提供了丰富的素材.
    • 重新描述:使用LLaVA-1.5-13B模型,根据特定的提示(如“使用两句话描述图像中的空间关系,可以使用左右、上下、前后等词汇,同时描述物体的相对大小”)生成合成的空间描述,从而为图像创建新的、具有明确空间关系导向的描述,使数据集能够显式地编码图像中的细粒度关系和空间信息.
  • 数据集验证
    • FAITHScore评估:利用大型语言模型将生成的描述分解为可以单独在视觉问答(VQA)格式中验证的原子(简单)声明,并通过GPT-3.5-Turbo识别描述性短语并将其分解为原子陈述,再由LLaVA1.5-13B进行验证,从实体、关系、颜色、计数和其他属性等5个类别对描述的正确性进行聚合评估,特别是针对包含空间关系关键词的原子陈述,平均正确率达到88.9%,空间关系相关的正确率为83.6%,确保了描述的质量和可靠性.
    • GPT-4(V)评估:在LAION和SA数据集的444张图像的小规模研究中,使用GPT-4(V)Turbo对描述进行评分,重点关注空间关系描述的准确性,LAION和SA图像的描述平均得分分别为7.49和7.36,进一步验证了描述的质量.
    • 人工标注:通过众包人类研究对3000张图像进行标注,每个参与者最多标注30对图像-文本,随机选择SPRIGHT中描述的一句话进行细粒度评估,正确率为66.57%,从人类视角对描述的准确性进行了验证.
  • 模型训练与优化
    • 基线模型选择:以Stable Diffusion v2.1作为基础模型,其在图像生成领域具有良好的性能和广泛的应用基础,为提升空间一致性提供了一个可靠的起点.
    • 训练数据配对:构建训练和验证集,包含13500张训练图像和1500张验证图像,这些图像随机且平均地采自LAION-Aesthetics和Segment Anything数据集。每张图像都配有一对描述,一个是典型的描述,另一个是来自SPRIGHT的空间描述,为模型提供了丰富的空间关系学习样本.
    • 随机选择描述类型:在微调过程中,对于每张图像,随机选择给定的描述类型(典型描述或空间描述),比例为50:50,使模型能够在训练过程中同时接触到不同类型描述,增强其对空间关系描述的理解和生成能力.
    • 优化策略:同时微调U-Net和CLIP文本编码器,使用AdamW优化器,全局批量大小为128。U-Net训练15000步,CLIP文本编码器在前10000步保持冻结,这种分阶段的训练策略有助于模型更好地学习空间关系和文本特征,从而提高生成图像的空间一致性.
    • 高效训练方法:提出了一种高效的训练方法,通过在包含大量对象的图像上进行训练来优化模型。假设图像中包含大量对象时也包含多个空间关系,训练模型在给定包含空间关系的提示时一致地生成大量对象,从而解决了当前T2I模型的一个常见问题。实验结果表明,随着图像中对象数量的增加,空间保真度逐步提高,特别是对于包含超过18个对象的图像子集,取得了最佳的空间分数,仅使用444张训练图像和SPRIGHT的空间描述,就在T2I-CompBench空间分数上比基线SD 2.1提高了41%,达到了所有报告模型中的最佳性能.

SPRIGHT应用场景

  1. 图像编辑与创作:在图像编辑软件中,SPRIGHT可以辅助用户根据特定的空间关系描述来调整和创作图像,如将某个对象放置在另一个对象的上方或左侧,使编辑过程更加直观和便捷.
  2. 虚拟现实与游戏开发:在虚拟现实场景或游戏开发中,利用SPRIGHT生成的空间关系数据,可以更真实地构建场景中的物体布局,增强用户的沉浸感和游戏体验.
  3. 教育与培训:在教学过程中,SPRIGHT可以帮助学生学习和理解空间概念,如在地理、物理等学科中,通过图像描述来解释物体的空间位置和关系,使抽象知识更加形象易懂.
  4. 广告与营销:在广告设计中,SPRIGHT可以用于生成符合特定空间布局要求的广告图像,如将产品放置在特定的背景或与其他元素形成特定的空间关系,以更好地吸引消费者的注意力和传达广告信息.
  5. 室内设计与建筑:在室内设计和建筑设计领域,SPRIGHT可以辅助设计师根据空间关系描述来规划和展示设计方案,如展示家具在房间中的布局或建筑元素之间的相对位置,提高设计的可视化效果.
  6. 艺术创作与插画:对于艺术家和插画师来说,SPRIGHT可以提供丰富的空间关系灵感,帮助他们在创作过程中更好地把握物体之间的空间布局和比例关系,创作出更具艺术表现力的作品.

SPRIGHT项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...