OLMo 2 32B：Allen Institute for AI推出的大型语言模型

0 60

OLMo 2 32B简介

OLMo 2 32B 是由 Allen Institute for AI (Ai2) 开发的大型语言模型，是 OLMo 2 系列中规模最大且性能最强的模型。它拥有 320 亿参数，经过 6 万亿 token 的训练，并采用 Tulu 3.1 进行后训练。OLMo 2 32B 是首个在多技能学术基准测试中超越 GPT-3.5 Turbo 和 GPT-4o mini 的完全开放模型，其数据、代码、权重和训练细节均公开透明。开发团队通过改进数据集、优化预训练和后训练策略，以及开发高效的 OLMo-core 训练框架，使其在性能和训练效率上表现出色，且仅需三分之一的训练成本即可达到与 Qwen 2.5 32B 相似的性能，为研究人员和开发者提供了一个强大的开源工具。

OLMo 2 32B：Allen Institute for AI推出的大型语言模型

OLMo 2 32B主要功能

高性能语言生成：
- 在多种多技能学术基准测试中超越了 GPT-3.5 Turbo 和 GPT-4o mini 等模型，能够生成高质量、准确且符合语义的文本。
- 可用于多种自然语言处理任务，如文本生成、问答、翻译、写作辅助等。
高效的训练和推理：
- 仅需三分之一的训练成本即可达到与 Qwen 2.5 32B 相似的性能，显著降低了训练资源消耗。
- 支持在单个 H100 GPU 节点上进行微调，便于研究人员和开发者快速定制和部署。
完全开放性：
- 提供了完整的数据、代码、权重和训练细节，方便用户深入了解模型的构建过程。
- 支持 Hugging Face 的 Transformers 库和 vLLM 的主分支，便于与其他工具和框架集成。
多模态支持：
- OLMo-core 框架不仅支持文本模态，还为未来扩展到其他模态（如图像、语音等）提供了基础。
- 能够处理复杂的多模态任务，如图文生成、语音文本交互等。
强化学习与奖励机制：
- 集成了强化学习与可验证奖励（RLVR）技术，通过 Group Relative Policy Optimization（GRPO）优化模型的决策过程。
- 提高了模型在特定任务上的表现，尤其是在需要长期规划和复杂推理的场景中。

OLMo 2 32B技术原理

预训练阶段：
- 使用 OLMo-Mix-1124 数据集，包含 3.9 万亿 token，来自 DCLM、Dolma、Starcoder 和 Proof Pile II 等多个数据源。
- 通过大规模无监督学习，模型学习语言的基本结构和语义信息。
- 采用分阶段训练策略，逐步增加模型规模和训练 token 数量。
中训练阶段：
- 在 Dolmino 数据集上进行中训练，该数据集包含 8430 亿 token，涵盖高质量文档、教育内容和指令调优数据。
- 使用模型 souping 技术，通过多次训练和平均不同数据顺序的模型权重，进一步优化模型性能。
后训练阶段：
- 采用 Tulu 3.1 的三阶段训练策略：监督微调（SFT）、偏好优化（DPO）和强化学习与可验证奖励（RLVR）。
- 引入 Group Relative Policy Optimization（GRPO）技术，通过群体相对策略优化，提升模型在复杂任务中的表现。
高效训练框架：
- OLMo-core 是一个全新的训练框架，支持大规模模型训练，具备以下特点：
  - 异步分布式检查点：在训练过程中异步保存模型状态，减少 GPU 空闲时间。
  - 最小化主机-设备同步：通过在 GPU 上缓存数据，减少数据传输开销。
  - 4D+ 并行化：支持流水线并行、数据并行、上下文并行、张量并行和专家并行等多种并行策略。
优化的训练基础设施：
- 在 Google Cloud Engine 的 Augusta 集群上进行训练，该集群包含 160 个节点，每个节点配备 8 个 H100 GPU。
- 通过优化网络拓扑、改进异步检查点机制和采用混合分片策略，显著提高了训练效率和吞吐量。