Deepseek MLA CP通信AlltoAll

索木目-黄淮

64人浏览 · 2026-05-25 22:03:15

索木目-黄淮 · 2026-05-25 22:03:15 发布

长文本CP 切分，共2次All2All

QKV（按TP操作) 计算完成后。

第一次AlltoAll，输入按Seq维度汇总，按Head维度切。（切输入，非TP维度的切参数）

[s/c, b, n/t, h] -AlltoAll-> [s, b, n/(t*c), h]

第二次AlltoAll，恢复按Seq维度切，按Head维度汇总。

[s, b, n/(t*c), h] -AlltoAll-> [s/c, b, n/t, h]

其中t 为TP, c 为CP, n = nHead数

举例： CP = 2, TP =4 , H = 8192, nHead = 16

阶段	形状	说明
输入	`[s/2, b, 8192]`	CP 切分后，每 rank 持有半个序列
MLA 解压后 Q/K/V	`[s/2, b, 16, 192]`	16 heads/rank（64 heads ÷ TP=4），经过了TP的降维
A2A 后（scatter head，gather seq）	`[s, b, 8, 192]`	全序列，head 减半
Flash Attention 输出	`[s, b, 8, 128]`	全序列本地计算
A2A 后（scatter seq，gather head）	`[s/2, b, 16, 128]`	还原序列分片
o_proj 后	`[s/2, b, 8192]`	还原 hidden_states, 经过TP升维

compressed_kv [s, b, 576]          ← kv_a_proj 压缩后的 latent，是 _preprocess 的输入
    │
    ├── split → ct_kv [s, b, 512]   ← kv_lora_rank 部分
    │           k_pe  [s, b, 64]    ← rope 部分
    │
    ├── kv_a_layernorm(ct_kv)
    │
    └── kv_b_proj (Up-projection, 解压)
              [s, b, 512] → [s, b, 16heads, 128+128]
              k_nope [s, b, 16, 128]
              v      [s, b, 16, 128]

q_b_input (经过 q_b_proj 解压)
    q_nope [s, b, 16, 128]
    q_pe   [s, b, 16, 64]

最终拼接:
    query_states [s, b, 16, 192]  = q_nope + q_pe
    key_states   [s, b, 16, 192]  = k_nope + k_pe
    value_states [s, b, 16, 128]

MLA attention:

DeepseekV2Attention
    └── self.core_attention_flash = FlashAttention(...)      # 基础 flash attn
              ↓ (当 CP + alltoall 时自动包装)
    └── self.core_attention_flash = DistributedAttention(FlashAttention, cp_group)

这个方法的前提：

需要nHead >= CP*TP，否则CP过大，只能使用ring-attention.

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

我让 Claude Code 修一个 Bug，它却重构了半个项目

有一次，我让 Claude Code 帮我修一个很小的 Bug。问题真的不复杂。页面上有一个按钮，点击之后 loading 状态没有正常恢复。按照我当时的理解，这种问题最多就是少写了一行状态重置，或者请求结束后没有把 loading 改回 false。我把问题丢给 Claude Code 之后，就去看别的东西了。过了一会儿，它告诉我已经修好了。我打开 diff，整个人愣了一下。它确实修了按钮状态，

AI编程社区

告别无效沟通！用AGENTS.md和RULES把GPT变成“专属团队成员”

摘要：如何让GPT精准适配项目规范？AGENTS.md+RULES是关键通过创建项目根目录的AGENTS.md文件（AI专属的"项目说明书"），明确技术栈、代码规范、目录约束等规则，可显著提升AI生成代码的合规性（纠错率降42%）。搭配IDE级细粒度规则文件RULES（如Cursor的.cursorrules），能进一步实现场景化约束。推荐工具链包括： AI编码工具（Cursor/Copilot