（三）DeepSeek v2 原理

沐自礼

175人浏览 · 2026-06-01 17:19:43

沐自礼 · 2026-06-01 17:19:43 发布

论文标题：DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
论文地址：https://arxiv.org/pdf/2405.04434
Github地址：https:////github.com/deepseek-ai/DeepSeek-V2

DeepSeek V2的改进点：

1.集成DeepSeek v1，并改进: 由GQA迭代为MLA, 减少93.3%的KV缓存.

2.集成DeepSeek Moe，并改进：多了通信平衡损失和令牌丢弃等策略。

两种技术带了DeepSeek-v2强大性能，高效的推理吞吐量。

一、MLA

是一种类似秩压缩的注意力机制。

MHA需要保存N个头的K,V缓存，效果好；

GQA保存M个组的K,V缓存，效果较好；

MQA保存一个头的K,V缓存，效果一般；

MLA则是将 Key-Value (KV) 缓存压缩为潜在向量，使用时进行映射，效果好。

1.1 MHA结构

为了方便计算，每次都需要保存K-V缓存。

1.2 MLA结构

为了减少K-V缓存，采用低秩键值联合压缩（对键与值进行低秩联合压缩来减少KV缓存）， $W^{DQ}$ 中D是降维， $W^{UQ}$ 中U是升维。

公式40中 QUERY 由 $q_{t,i}^{C}$ 和 $q_{t,i}^{R}$ 两部分组成

$q_{t,i}^{C}$ 可以理解为先降维得到Query的压缩隐向量，然后升维，

$q_{t,i}^{R}$ 为降维+位置rope。

公式44中 KEY 由 $k_{t,i}^{C}$ 和 $k_{t}^{R}$ 两部分组成，

$k_{t,i}^{C}$ 可以理解为先降维得到K和V的压缩隐向量，然后升维，

$k_{t}^{R}$ 为位置rope。

公式45中 VALUE 等于 $v_{t}^{C}$ ，可以理解为先降维得到K和V的压缩隐向量，然后升维。

当前只需要保留上图蓝色框住的两个向量就能映射多个K,V，避免缓存K-V对，减少显存占用。

$q_{t,i}^{T}k_{j,i}$ 中涉及的 $W^{UQ}$ * $W^{UK}$ 可以提前计算好。

$u_{t}$ 涉及的 $W^{UV}$ * $W^{O}$ 可以提前计算好。

基于矩阵乘法结合律,因此无需为每个查询单独计算键与值。通过此优化,我们避免了在推理过程中重新计 $k_{t}^{C}$ 和 $v_{t}^{C}$ 带来的计算开销。

下图和上面的公式能一一对应。

二、Moe

采用DeepSeekMoE架构(Dai等人,2024),该架构通过细粒度专家分割和共享专家隔离,为专家专业化提供了更高潜力。

moe原理、专家级平衡损失、设备级平衡损失可以参考：DeepSeekMoE 原理-CSDN博客

2.1 通信平衡损失

2.2 Token-dropping strategy

三、整体架构、量化和精度优化等

推理效率。为高效部署DeepSeek‐V2提供服务,我们首先将其参数转换为FP8精度。此外,我们还对DeepSeek‐V2实施KV缓存量化(Hooper等人,2024;Zhao等人,2023),将其KV 缓存中每个元素进一步平均压缩至6比特。

HAI‐LLM框架

16路zero-bubble流水线并行

8路专家并行

ZeRO-1 数据并行

FlashAttention-2

四、参考

https://www.bilibili.com/video/BV1BYXRYWEMj?spm_id_from=333.788.videopod.sections&vd_source=d822e911a2ea10d2b0720afa70f0c357

Deepseek-V2技术报告解读！全网最细！-腾讯云开发者社区-腾讯云

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

Gemini 2.5 Flash Lite 新手极速上手指南

在开发智能应用时，很多开发者常常面临一个两难选择：是追求模型的强大理解能力，还是担心高昂的算力成本和复杂的部署流程？特别是在处理长文档分析、图片内容识别或需要实时交互的场景下，传统方案往往显得力不从心。要么响应速度慢得让人失去耐心，要么在处理复杂上下文时出现“遗忘”现象，导致回答断章取义。其实，随着新一代大模型 API 的成熟，这些问题已经有了更优雅的解法。不需要自己搭建庞大的服务器集群，也不必深

AI编程社区

2026最新GPT充值完整教程：从基础充值到升级Pro，解锁全部AI高阶能力

本文针对国内用户使用ChatGPT的痛点，结合2026年最新规则，全面拆解免费版、Plus版、Pro版三大GPT版本的权益差异与适用人群，详解国内零踩坑、无需海外账户的GPT正规充值与Pro升级流程，汇总充值避坑要点。文章重点剖析了Plus会员高频限流、功能受限等短板，阐明GPT Pro顶配会员在无限算力、高阶模型、Sora视频生成、专属稳定通道等方面的核心优势，明确程序员、创作者、科研人员、职场