MINT-1T:具有一万亿个 token的多模态数据集

MINT-1T简介

MINT-1T是由华盛顿大学、Salesforce Research、斯坦福大学、德克萨斯大学奥斯汀分校和加州大学伯克利分校的联合研究团队开发的一个大规模、多模态、开源的交错数据集。它包含了高达一万亿个文本标记和34亿张图片,是迄今为止最大和最多样化的同类型数据集。MINT-1T的创建填补了开源多模态预训练数据集规模上的空白,为训练前沿的大型多模态模型(LMMs)提供了重要资源。该数据集的多样性和规模使其在模型训练中展现出与先前领先数据集相媲美甚至更优的性能。

MINT-1T:具有一万亿个 token的多模态数据集

MINT-1T主要功能

  1. 大规模多模态预训练:MINT-1T提供了足够规模的数据,用于训练能够理解并处理图像和文本的大型多模态模型(LMMs)。
  2. 数据多样性:数据集包含了来自不同来源的文档,如HTML、PDF和ArXiv,增加了数据的多样性,有助于提高模型的泛化能力。
  3. 高性能模型训练:实验表明,使用MINT-1T训练的模型在多项任务上能够与之前领先的数据集OBELICS训练的模型相媲美或更优。
  4. 数据工程挑战应对:MINT-1T的开发考虑了处理大规模文档、保持图像和文本的原始顺序等数据工程挑战。
  5. 开源社区贡献:通过分享数据整理流程和发布数据集,为开源社区提供了宝贵的资源,促进了模型的透明度和研究的共享。

MINT-1T技术原理

  1. 数据采集:从CommonCrawl WARC文件、WAT文件以及ArXiv中提取包含图像和文本的文档。
  2. 质量过滤:应用文本质量过滤方法,排除非英语文档和包含NSFW内容的URL,以及使用特定的文本过滤规则来提高数据质量。
  3. 图像处理:对下载的图像进行尺寸和比例过滤,移除小尺寸或与主题不相关的图像。
  4. 去重处理:通过段落和文档级别的文本去重,以及基于SHA256哈希的图像去重,减少重复和冗余内容。
  5. 安全性过滤:应用NSFW图像检测器过滤不适宜的内容,并匿名化文本数据中的电子邮件地址和IP地址,以保护个人隐私。
  6. 数据规模扩展:MINT-1T在数据规模上实现了10倍的增长,通过处理更大量的文档和图像,为训练大型模型提供了足够的数据量。
  7. 多模态序列保持:在数据整理过程中保持了图像和文本的原始交错顺序,这对于训练能够理解多模态序列的模型至关重要。

MINT-1T应用场景

  1. 图像和文本的联合理解:用于开发能够同时理解图像内容和相关文本的模型。
  2. 视觉问答系统:构建能够回答有关图像内容问题的智能系统。
  3. 多模态文档检索:实现通过文本查询来检索包含图像的相关文档。
  4. 自动图像标注:为图像自动生成描述性标签或标题。
  5. 交互式教育应用:在教育软件中提供图文结合的内容,增强学习体验。
  6. 社交媒体内容分析:分析社交媒体上的图文帖子,提取有用信息或进行情感分析。

MINT-1T项目入口

© 版权声明

相关文章

暂无评论

暂无评论...