OpenCodeReasoning：NVIDIA团队开发的一个大型合成数据集

0 60

OpenCodeReasoning项目简介

OpenCodeReasoning是由NVIDIA团队开发的一个大型合成数据集，旨在提升大型语言模型（LLMs）在编程任务中的推理能力。该数据集包含736,712个Python代码样本，覆盖28,904个独特的编程问题，是目前规模最大的推理类合成数据集。开发团队通过从多个竞赛平台收集问题、利用推理增强型LLM生成解决方案，并进行后处理以确保数据质量。使用该数据集进行监督微调（SFT）的模型在LiveCodeBench和CodeContests等基准测试中取得了最先进的性能，显著优于其他同类模型。OpenCodeReasoning的发布为推动LLMs在编程推理领域的研究提供了重要支持。

OpenCodeReasoning主要功能

提升编程推理能力：
- 通过大规模合成数据集，帮助语言模型在编程任务中更好地理解和生成代码，特别是在复杂的推理任务中表现出色。
优化模型性能：
- 使用该数据集进行监督微调（SFT）的模型在多个编程基准测试中达到了最先进的性能，显著超越了其他同类模型。
支持多种模型规模：
- 适用于不同参数规模的模型（如7B、14B和32B），能够根据模型大小灵活调整训练策略，实现性能优化。
促进研究和开发：
- 提供了一个高质量的合成数据集，为研究人员和开发者提供了丰富的资源，推动大型语言模型在编程领域的应用和发展。
增强模型的泛化能力：
- 数据集涵盖了多种难度和类型的编程问题，帮助模型学习到更广泛的推理模式，从而在不同场景下表现出更好的泛化能力。

OpenCodeReasoning技术原理

数据集构建：
- 问题收集：从多个知名编程竞赛平台（如CodeForces、LeetCode等）收集大量编程问题，确保问题的多样性和难度分布。
- 去重处理：通过精确匹配和语义相似性检测，去除重复或高度相似的问题，保证数据集的独立性和质量。
- 合成数据生成：利用推理增强型大型语言模型（如DeepSeek-R1）生成代码解决方案，并通过特定的提示（如<think>标签）引导模型生成推理过程。
数据后处理：
- 推理验证：检查生成的解决方案是否包含推理痕迹，并提取推理部分与代码片段，确保数据的有效性和可用性。
- 语法检查：使用工具（如TreeSitter）验证代码的语法正确性，过滤掉无效或错误的代码样本。
- 数据增强：通过逐步增加数据规模，从25k样本扩展到736k样本，验证数据规模对模型性能的影响。
监督微调（SFT）：
- 模型选择：选择Qwen2.5系列模型（7B、14B和32B）作为基础模型，利用其强大的语言生成能力。
- 训练策略：采用AdamW优化器、余弦退火学习率调度器，并通过BF16精度加速训练过程，提高训练效率。
- 性能评估：在LiveCodeBench和CodeContests等基准测试上评估模型性能，通过多次运行取平均值以减少性能波动。
推理模式分析：
- 模式提取：通过特定的提示模板，将模型生成的推理过程分解为不同的推理模式（如自我评估、子目标生成等）。
- 模式分析：分析不同难度问题下的推理模式分布，以及正确与错误解决方案中的模式差异，为优化模型推理策略提供依据。
多语言支持（实验性）：
- 多语言数据融合：尝试将C++语言的解决方案纳入数据集，探索多语言数据对模型性能的影响。
- 跨语言性能评估：在IOI等需要C++解决方案的基准测试上评估模型性能，验证多语言数据的有效性。