技术栈
alltoall
索木木
25 天前
人工智能
·
深度学习
·
训练
·
模型并行
·
cp并行
·
alltoall
Deepseek MLA CP通信AlltoAll
长文本CP 切分,共2次All2All第一次AlltoAll,输入按Seq维度汇总,按Head维度切。(切输入,非TP维度的切参数)
我是有底线的