MINT-1T：具有一万亿个 token的多模态数据集

3.AI大模型数据库3个月前更新 AI-77

0 100

MINT-1T简介

MINT-1T是由华盛顿大学、Salesforce Research、斯坦福大学、德克萨斯大学奥斯汀分校和加州大学伯克利分校的联合研究团队开发的一个大规模、多模态、开源的交错数据集。它包含了高达一万亿个文本标记和34亿张图片，是迄今为止最大和最多样化的同类型数据集。MINT-1T的创建填补了开源多模态预训练数据集规模上的空白，为训练前沿的大型多模态模型（LMMs）提供了重要资源。该数据集的多样性和规模使其在模型训练中展现出与先前领先数据集相媲美甚至更优的性能。

MINT-1T：具有一万亿个 token的多模态数据集

MINT-1T主要功能

大规模多模态预训练：MINT-1T提供了足够规模的数据，用于训练能够理解并处理图像和文本的大型多模态模型（LMMs）。
数据多样性：数据集包含了来自不同来源的文档，如HTML、PDF和ArXiv，增加了数据的多样性，有助于提高模型的泛化能力。
高性能模型训练：实验表明，使用MINT-1T训练的模型在多项任务上能够与之前领先的数据集OBELICS训练的模型相媲美或更优。
数据工程挑战应对：MINT-1T的开发考虑了处理大规模文档、保持图像和文本的原始顺序等数据工程挑战。
开源社区贡献：通过分享数据整理流程和发布数据集，为开源社区提供了宝贵的资源，促进了模型的透明度和研究的共享。

MINT-1T技术原理

数据采集：从CommonCrawl WARC文件、WAT文件以及ArXiv中提取包含图像和文本的文档。
质量过滤：应用文本质量过滤方法，排除非英语文档和包含NSFW内容的URL，以及使用特定的文本过滤规则来提高数据质量。
图像处理：对下载的图像进行尺寸和比例过滤，移除小尺寸或与主题不相关的图像。
去重处理：通过段落和文档级别的文本去重，以及基于SHA256哈希的图像去重，减少重复和冗余内容。
安全性过滤：应用NSFW图像检测器过滤不适宜的内容，并匿名化文本数据中的电子邮件地址和IP地址，以保护个人隐私。
数据规模扩展：MINT-1T在数据规模上实现了10倍的增长，通过处理更大量的文档和图像，为训练大型模型提供了足够的数据量。
多模态序列保持：在数据整理过程中保持了图像和文本的原始交错顺序，这对于训练能够理解多模态序列的模型至关重要。

MINT-1T应用场景

图像和文本的联合理解：用于开发能够同时理解图像内容和相关文本的模型。
视觉问答系统：构建能够回答有关图像内容问题的智能系统。
多模态文档检索：实现通过文本查询来检索包含图像的相关文档。
自动图像标注：为图像自动生成描述性标签或标题。
交互式教育应用：在教育软件中提供图文结合的内容，增强学习体验。
社交媒体内容分析：分析社交媒体上的图文帖子，提取有用信息或进行情感分析。

MINT-1T项目入口

GitHub代码库：https://github.com/mlfoundations/MINT-1T
arXiv研究论文：https://arxiv.org/abs/2406.11271

# 3.AI大模型数据库 # AI开源项目 # AI项目库

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

eSearch：集成了截屏、OCR识别、全文搜索、翻译及录屏等多项实用工具

AI-77cn

100

ZeST：将一个图像中的材质直接迁移到另一个图像上

AI-77cn

90

Omni-Zero-Couples：生成高质量风格化情侣肖像

AI-77cn

100

R1-Omni：阿里通义推出的全模态情感识别模型

AI-77cn

10

AVD2：增强自动驾驶系统对复杂交通事故场景的理解能力

AI-77cn

100

DRT-o1：微信AI团队推出的长链条思考神经机器翻译模型

AI-77cn

50

暂无评论

暂无评论...

一站式AI信息服务平台：AI工具大全、AI每日快讯、AI项目库、AI融资快报、AI研究报告、AI教程、AI副业、AI考证等。助您全面系统了解AI、使用AI

关于我们广告合作免责声明柒柒快讯

Copyright © 2025 柒柒AI导航粤ICP备2023146609号-1

粤公网安备44011102483711号