Nemotron-CC：NVIDIA推出的预训练数据集

0 60

Nemotron-CC简介

Nemotron-CC是由NVIDIA团队开发的一个高质量的预训练数据集，旨在将Common Crawl数据转化为适合长序列预训练的大型数据集。该团队通过分类器集成、合成数据重述和减少对启发式过滤器的依赖等方法，实现了数据准确性和数量之间的更好权衡。Nemotron-CC包含6.3万亿个tokens，其中4.4万亿是全球去重的原始tokens，1.9万亿是合成生成的tokens。在短期序列（1T tokens）训练中，其高质量子集Nemotron-CC-HQ在多个任务上优于现有的DCLM和FineWebEdu数据集。在长期序列（15T tokens）训练中，使用Nemotron-CC训练的8B参数模型在多个基准测试中表现优于Llama 3.1 8B模型，特别是在MMLU任务上，准确率提高了5分。该数据集的开发为大型语言模型的训练提供了更丰富的数据资源。

Nemotron-CC主要功能

提供高质量预训练数据：Nemotron-CC旨在为大型语言模型（LLMs）提供高质量的预训练数据，特别是在长序列训练（如15T tokens）中表现出色。
增加数据多样性：通过合成数据生成和减少对启发式过滤器的依赖，增加了数据的多样性和独特性，有助于提高模型的泛化能力。
提升模型性能：在短期和长期序列训练中，使用Nemotron-CC训练的模型在多个基准测试任务中表现出色，如MMLU、ARC-Challenge等，显著提高了模型的准确性和性能。
支持大规模训练：该数据集的规模和质量使其能够支持大规模语言模型的训练，如8B参数模型，为研究人员和开发者提供了强大的数据支持。

Nemotron-CC技术原理

HTML-to-text提取器和过滤器
- 提取器选择：测试了两种HTML-to-text提取器（Justext和Trafilatura），发现Justext在提取高质量tokens方面更为有效，因此选择Justext作为主要提取器。
- 过滤器优化：传统启发式过滤器会移除大量高质量tokens，因此提出只对模型识别出的低质量数据应用这些过滤器，以保留更多高质量tokens。
基于模型的质量标记
- 分类器集成：训练了三个不同的质量分类器，每个分类器有不同的高质量偏好。通过集成这些分类器，对所有文档进行评分，并将爬取的数据分成不同的质量等级。
- 质量评分和分桶：每个分类器对文档进行质量评分，将评分转换为0到19的整数，每个评分桶包含约5%的文档。通过最大操作集成三个分类器的评分，确定每个文档的最终质量评分。
- 质量标签分配：将细粒度的质量评分进一步分组为5个下游质量类别，通过连续预训练和任务性能评估，将20个评分桶分组为5个大类别。
合成数据生成
- 低质量数据重述：对于低质量数据，通过重述减少噪声和错误，同时保留有用信息。使用Wikipedia风格的提示（Prompt 5）重述低质量文档，有效减少错误和冗余，提高格式化水平。
- 高质量数据扩展：对于高质量数据，通过生成多样化的问答对、提炼关键信息等方式增加独特tokens的数量。具体方法包括：
  - 多样化问答对：生成不同形式的问答对，如是非问题、开放式问题、选择题等。
  - 提炼：将文本重写为简洁明了的段落。
  - 知识提取：从文本中提取关键信息，忽略无用内容。
  - 知识列表：将关键信息提取为有组织的列表。
- 文档分段：将每个文档分成多个段落，每个段落包含一个或多个完整行，且长度不超过特定的token限制，以避免模型输出过度简化。
数据集整合
- 数据集构建：将上述技术应用于Common Crawl的99个快照（CC-MAIN-2013-20至CC-MAIN-2024-30），创建了一个6.3T tokens的数据集，其中4.4T是全球去重的原始tokens，1.9T是合成生成的tokens。
- 高质量子集：为了在短期序列训练中进行公平比较，还创建了一个1.1T tokens的高质量子集（Nemotron-CC-HQ），包含最高评分的原始数据和多样化的问答对合成数据。