Nemotron-CC:NVIDIA推出的预训练数据集
Nemotron-CC简介
Nemotron-CC是由NVIDIA团队开发的一个高质量的预训练数据集,旨在将Common Crawl数据转化为适合长序列预训练的大型数据集。该团队通过分类器集成、合成数据重述和减少对启发式过滤器的依赖等方法,实现了数据准确性和数量之间的更好权衡。Nemotron-CC包含6.3万亿个tokens,其中4.4万亿是全球去重的原始tokens,1.9万亿是合成生成的tokens。在短期序列(1T tokens)训练中,其高质量子集Nemotron-CC-HQ在多个任务上优于现有的DCLM和FineWebEdu数据集。在长期序列(15T tokens)训练中,使用Nemotron-CC训练的8B参数模型在多个基准测试中表现优于Llama 3.1 8B模型,特别是在MMLU任务上,准确率提高了5分。该数据集的开发为大型语言模型的训练提供了更丰富的数据资源。

Nemotron-CC主要功能
-
提供高质量预训练数据:Nemotron-CC旨在为大型语言模型(LLMs)提供高质量的预训练数据,特别是在长序列训练(如15T tokens)中表现出色。
-
增加数据多样性:通过合成数据生成和减少对启发式过滤器的依赖,增加了数据的多样性和独特性,有助于提高模型的泛化能力。
-
提升模型性能:在短期和长期序列训练中,使用Nemotron-CC训练的模型在多个基准测试任务中表现出色,如MMLU、ARC-Challenge等,显著提高了模型的准确性和性能。
-
支持大规模训练:该数据集的规模和质量使其能够支持大规模语言模型的训练,如8B参数模型,为研究人员和开发者提供了强大的数据支持。
Nemotron-CC技术原理
-
HTML-to-text提取器和过滤器
-
提取器选择:测试了两种HTML-to-text提取器(Justext和Trafilatura),发现Justext在提取高质量tokens方面更为有效,因此选择Justext作为主要提取器。
-
过滤器优化:传统启发式过滤器会移除大量高质量tokens,因此提出只对模型识别出的低质量数据应用这些过滤器,以保留更多高质量tokens。
-
-
基于模型的质量标记
-
分类器集成:训练了三个不同的质量分类器,每个分类器有不同的高质量偏好。通过集成这些分类器,对所有文档进行评分,并将爬取的数据分成不同的质量等级。
-
质量评分和分桶:每个分类器对文档进行质量评分,将评分转换为0到19的整数,每个评分桶包含约5%的文档。通过最大操作集成三个分类器的评分,确定每个文档的最终质量评分。
-
质量标签分配:将细粒度的质量评分进一步分组为5个下游质量类别,通过连续预训练和任务性能评估,将20个评分桶分组为5个大类别。
-
-
合成数据生成
-
低质量数据重述:对于低质量数据,通过重述减少噪声和错误,同时保留有用信息。使用Wikipedia风格的提示(Prompt 5)重述低质量文档,有效减少错误和冗余,提高格式化水平。
-
高质量数据扩展:对于高质量数据,通过生成多样化的问答对、提炼关键信息等方式增加独特tokens的数量。具体方法包括:
-
多样化问答对:生成不同形式的问答对,如是非问题、开放式问题、选择题等。
-
提炼:将文本重写为简洁明了的段落。
-
知识提取:从文本中提取关键信息,忽略无用内容。
-
知识列表:将关键信息提取为有组织的列表。
-
-
文档分段:将每个文档分成多个段落,每个段落包含一个或多个完整行,且长度不超过特定的token限制,以避免模型输出过度简化。
-
-
数据集整合
-
数据集构建:将上述技术应用于Common Crawl的99个快照(CC-MAIN-2013-20至CC-MAIN-2024-30),创建了一个6.3T tokens的数据集,其中4.4T是全球去重的原始tokens,1.9T是合成生成的tokens。
-
高质量子集:为了在短期序列训练中进行公平比较,还创建了一个1.1T tokens的高质量子集(Nemotron-CC-HQ),包含最高评分的原始数据和多样化的问答对合成数据。
-
Nemotron-CC应用场景
-
自然语言处理研究:研究人员可以利用Nemotron-CC数据集来训练和测试新的自然语言处理模型,如语言理解、文本生成等任务。
-
大型语言模型预训练:为开发大型语言模型提供丰富的预训练数据,帮助模型学习语言的复杂模式和语义信息。
-
多任务学习:在多个自然语言处理任务上进行多任务学习,提高模型在不同任务上的泛化能力和性能。
-
问答系统开发:通过高质量的问答对合成数据,训练更准确的问答系统,提升系统对复杂问题的理解和回答能力。
-
文本分类与情感分析:利用数据集中的多样化文本,训练文本分类和情感分析模型,提高模型对不同文本类型的识别和情感判断能力。
-
机器翻译:为机器翻译模型提供丰富的双语或多语种数据,提升翻译质量和准确性,尤其是在处理长文本和复杂语境时。
Nemotron-CC项目入口
- 项目主页:https://developer.nvidia.com/
- arXiv技术论文:https://arxiv.org/pdf/2412.02595
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...