DeepEP：DeepSeek开源的专家并行通信库

0 20

DeepEP简介

DeepEP是由DeepSeek团队开发的一款高效专家并行通信库，专为混合专家模型（Mixture-of-Experts, MoE）和专家并行（EP）任务设计。它通过优化的全连接GPU内核，提供高吞吐量和低延迟的通信能力，支持NVLink和RDMA通信，并兼容低精度操作（如FP8）。DeepEP还引入了通信与计算重叠的钩子机制，不占用GPU流处理器资源，特别适合大规模模型训练和推理任务。开发团队在Hopper架构上进行了大量优化，使其在节点内和节点间通信中表现出色。此外，DeepEP还支持流量隔离、自适应路由和拥塞控制等网络配置功能，以适应不同的生产环境需求。

DeepEP主要功能

高效通信核心
- 提供高吞吐量和低延迟的全连接 GPU 核心，支持大规模分布式训练和推理任务。
- 优化了 MoE 架构中的数据分发（dispatch）和聚合（combine）操作，显著提升通信效率。
异构带宽转发优化
- 支持 NVLink 和 RDMA 网络，能够高效地在节点内（Intranode）和节点间（Internode）进行数据传输。
- 针对不同网络环境（如 NVLink 域到 RDMA 域）进行了优化，确保数据传输的高效性。
低延迟内核
- 提供纯 RDMA 支持的低延迟内核，适用于延迟敏感的推理任务。
- 支持通信计算重叠，通过钩子机制在不占用 GPU SM 资源的情况下实现背景通信。
低精度计算支持
- 支持 FP8 等低精度操作，减少通信带宽需求，提升整体系统效率。
灵活的网络配置
- 支持 InfiniBand 和 RoCE 网络，兼容多种网络拓扑。
- 提供流量隔离、自适应路由和拥塞控制等高级网络功能，以优化通信性能。
易于集成和使用
- 提供 Python 和 PyTorch 接口，方便与现有深度学习框架集成。
- 提供详细的安装指南和测试用例，帮助用户快速上手。

DeepEP技术原理

MoE 架构优化：MoE 架构通过将输入数据分发到不同的专家（Experts）进行处理，DeepEP 优化了这一过程中的通信环节，确保数据高效分发和聚合。
异构通信技术
- 利用 NVLink 实现节点内的高速通信，利用 RDMA 实现节点间的低延迟通信。
- 通过优化内核设计，减少数据传输中的瓶颈，提升整体通信效率。
低延迟内核设计
- 采用纯 RDMA 通信，减少 GPU 和 CPU 的参与，从而降低通信延迟。
- 提供通信计算重叠机制，通过钩子接口在后台完成数据传输，不占用 GPU SM 资源。
低精度计算加速
- 通过支持 FP8 等低精度格式，减少通信数据量，降低带宽需求，同时保持计算精度。
网络流量优化
- 使用 InfiniBand 的虚拟通道（VL）实现流量隔离，避免不同任务之间的干扰。
- 支持自适应路由和静态路由，根据网络负载动态调整路由策略。
通信计算重叠：通过事件和钩子机制，允许通信操作在计算任务中并行执行，减少 GPU 等待时间，提升整体效率。