技术栈

alltoall

索木木
25 天前
人工智能·深度学习·训练·模型并行·cp并行·alltoall
Deepseek MLA CP通信AlltoAll长文本CP 切分,共2次All2All第一次AlltoAll,输入按Seq维度汇总,按Head维度切。(切输入,非TP维度的切参数)
我是有底线的