DeepSeek-V2：深度求索发布的第二代开源MoE模型

0 60

DeepSeek-V2简介

DeepSeek-V2是深度求索推出的第二代开源MoE模型，它采用了创新的MLA注意力机制和DeepSeekMoE前馈网络，显著提升了模型在多种任务上的性能，同时降低了计算量和显存占用。该模型在中文和英文综合能力评测中均表现出色，且具备高效推理能力。此外，DeepSeek-V2的训练成本和部署成本相对较低，为人工智能领域的研究和应用提供了有力支持。通过开源，DeepSeek-V2为社区提供了宝贵的研究资源。

DeepSeek-V2技术特点

❶创新的模型架构：DeepSeek-V2并未沿用主流的“类LLaMA的Dense结构”和“类Mistral的Sparse结构”，而是提出了全新的MLA（Multi-head Latent Attention）注意力机制和DeepSeekMoE前馈网络。这种创新的架构设计大幅降低了计算量和显存占用，确保了高效推理。
❷高效的训练方法：DeepSeek-V2采用了多项训练优化技术，包括使用高质量、多样化的8.1万亿token预训练语料、针对不同任务（如数学、编程、对话等）进行监督微调和强化学习，以及利用HAI-LLM框架进行高效并行训练，充分利用GPU算力。

DeepSeek-V2性能优势

❶综合能力：在中文综合能力评测AlignBench中，DeepSeek-V2超越了所有开源模型，与GPT-4-Turbo、文心4.0等闭源模型在评测中处于同一梯队。在英文综合评测MT-Bench中，它也与最强的开源模型LLaMA3-70B同处第一梯队，超越了Mixtral 8x22B等其他MoE模型。
❷专项能力：DeepSeek-V2在数学、编程、知识等多个领域的专项基准测试中表现突出，均位列前列。在LiveCodeBench实时编程挑战基准上，它的成绩更是超越多数其他模型。
❸推理性能：DeepSeek-V2支持128K的超长上下文，且在GPU上的推理吞吐量高达每秒10万tokens输入、5万tokens输出。