EPLB：DeepSeek 推出的专家并行负载均衡工具

0 10

EPLB简介

Expert Parallelism Load Balancer (EPLB) 是由 DeepSeek 推出的一种用于专家并行（Expert Parallelism, EP）场景的负载均衡工具。在大规模分布式训练中，不同专家的工作负载可能不均衡，导致 GPU 资源利用不均。EPLB 通过采用冗余专家策略，复制负载较重的专家，并利用启发式算法将这些专家合理分配到各个 GPU 上，从而实现负载均衡。它还结合了组限制专家路由技术，尽量将同一组的专家放置在同一节点内，减少节点间通信开销。EPLB 提供了分层和全局两种负载均衡策略，分别适用于不同场景，并通过开源的 eplb.py 提供了易于使用的接口。该工具旨在优化专家并行模型的部署效率，提升分布式训练的性能，是 DeepSeek 团队在高效计算领域的又一创新成果。

EPLB主要功能

实现负载均衡：EPLB能够根据每个专家的负载情况，动态调整专家的分配，确保不同GPU之间的负载尽可能均匀，避免部分GPU因负载过高而成为性能瓶颈。
优化专家复制：通过冗余专家策略，EPLB会复制负载较重的专家，并将它们合理分配到多个GPU上，从而缓解因负载不均衡导致的资源浪费问题。
提升资源利用率：通过优化专家的分配和复制策略，EPLB能够最大化利用GPU资源，减少因负载不均导致的闲置时间，从而显著提高模型训练的效率。
降低通信开销：EPLB在分配专家时，尽量将同一组的专家放置在同一个节点上，减少节点之间的通信流量，从而降低通信延迟，提升整体性能。
灵活的策略选择：EPLB提供了两种负载均衡策略——层次化负载均衡和全局负载均衡，分别适用于不同的场景和需求。层次化策略更适合节点数能整除专家组数的情况，而全局策略则适用于需要更大规模并行的场景。
支持复杂模型结构：EPLB能够处理多层混合专家模型（MoE），并为每一层的专家提供灵活的分配和映射方案，适应复杂的模型架构。

EPLB技术原理

冗余专家策略：EPLB的核心思想是引入冗余专家。当某些专家的负载过高时，通过复制这些专家并将它们分配到多个GPU上，从而分散负载。这种策略能够有效缓解单个GPU因负载过高而导致的性能瓶颈。
层次化负载均衡：当节点数能整除专家组数时，EPLB会优先采用层次化策略。它先将专家组均匀分配到各个节点，确保每个节点的负载大致相等；然后在节点内对专家进行复制和分配，进一步平衡节点内GPU的负载。同时，EPLB会尽量将同一组的专家放置在同一个节点内，减少跨节点通信的需求。
全局负载均衡：在节点数不能整除专家组数，或者需要更大规模并行的情况下，EPLB会采用全局负载均衡策略。这种策略会忽略专家组的限制，将专家全局复制并分配到所有可用的GPU上，通过动态调整专家的复制数量和放置位置，确保全局负载的均衡。
动态负载估计与调整：EPLB依赖于对专家负载的估计值来指导分配策略。这些负载估计值通常基于历史数据的统计（如移动平均值）。EPLB会根据这些估计值动态调整专家的复制和分配，以适应不同的训练阶段和数据分布。
专家映射与资源分配：EPLB通过rebalance_experts函数输出专家的复制和放置计划。它会生成物理到逻辑（phy2log）和逻辑到物理（log2phy）的映射关系，以及每个专家的复制数量（logcnt）。这些映射关系指导专家被分配到具体的GPU上，确保整个系统的负载均衡。