Deepseek MLA CP通信AlltoAll

长文本CP 切分,共2次All2All

第一次AlltoAll,输入按Seq维度汇总,按Head维度切。(切输入,非TP维度的切参数)

s/c, b, n/t, h\] -AlltoAll-\> \[s, b, n/(t\*c), h

第二次AlltoAll,恢复按Seq维度切,按Head维度汇总。

s, b, n/(t\*c), h\] -AlltoAll-\> \[s/c, b, n/t, h

其中t 为TP, c 为CP, n = nHead数

举例: CP = 2, TP =4 , H = 8192, nHead = 16

阶段 形状 说明
输入 [s/2, b, 8192] CP 切分后,每 rank 持有半个序列
MLA 解压后 Q/K/V [s/2, b, 16, 192] 16 heads/rank(64 heads ÷ TP=4),经过了TP的降维
A2A 后(scatter head,gather seq) [s, b, 8, 192] 全序列,head 减半
Flash Attention 输出 [s, b, 8, 128] 全序列本地计算
A2A 后(scatter seq,gather head) [s/2, b, 16, 128] 还原序列分片
o_proj 后 [s/2, b, 8192] 还原 hidden_states, 经过TP升维
python 复制代码
compressed_kv [s, b, 576]          ← kv_a_proj 压缩后的 latent,是 _preprocess 的输入
    │
    ├── split → ct_kv [s, b, 512]   ← kv_lora_rank 部分
    │           k_pe  [s, b, 64]    ← rope 部分
    │
    ├── kv_a_layernorm(ct_kv)
    │
    └── kv_b_proj (Up-projection, 解压)
              [s, b, 512] → [s, b, 16heads, 128+128]
              k_nope [s, b, 16, 128]
              v      [s, b, 16, 128]

q_b_input (经过 q_b_proj 解压)
    q_nope [s, b, 16, 128]
    q_pe   [s, b, 16, 64]

最终拼接:
    query_states [s, b, 16, 192]  = q_nope + q_pe
    key_states   [s, b, 16, 192]  = k_nope + k_pe
    value_states [s, b, 16, 128]

MLA attention:

python 复制代码
DeepseekV2Attention
    └── self.core_attention_flash = FlashAttention(...)      # 基础 flash attn
              ↓ (当 CP + alltoall 时自动包装)
    └── self.core_attention_flash = DistributedAttention(FlashAttention, cp_group)
相关推荐
南屹川11 小时前
【Linux】Linux性能调优实战:从CPU到内存
人工智能
Allen正心正念202511 小时前
DolphinScheduler快速了解(二)
人工智能
HS_Tiger11 小时前
混沌处理器 - 由韬定律探讨 自研的未来架构设计(设计中的10000条通路85000节点仅作为一个理论验证过程的参考)
人工智能·原创·可复用架构·未来架构
cd_9492172111 小时前
工业溶剂行业合规发展新范式:以渥克化学为例,解析正规渠道与全域服务布局
大数据·人工智能
英辰朗迪AI获客12 小时前
AI动态简报之算力基建篇(2026.05.23)
人工智能
YOLO数据集集合12 小时前
自然灾害隐患检测数据集|无人机航拍灾害识别|道路安全巡检|滑坡倒树塌陷落石检测数据集10068期
人工智能·安全·yolo·目标检测·无人机
Aipollo12 小时前
从Nginx到AI网关:网关技术的演进之路
运维·人工智能·nginx
Swift社区12 小时前
模型、工具链与生态:构建可持续的AI开发闭环
人工智能
xiaofan67201312 小时前
2026财务分析师如何提升自身专业能力:从财务建模到AI数据分析的进阶路线
人工智能·数据挖掘·数据分析