技术栈
切分
索木木
2 小时前
人工智能
·
深度学习
·
机器学习
·
大模型
·
训练
·
cp
·
切分
大模型训练CP切分(与TP、SP结合)
一. CP并行原理megatron中的context并行(简称CP)与sequence并行(简称SP)不同点在于,SP只针对Layernorm和Dropout输出的activation在sequence维度上进行切分,CP则是对所有的input输入和所有的输出activation在sequence维度上进行切分,可以看成是增强版的SP。之前我有篇文章重点讲了TP、SP、EP技术。本文我讲下长文本的CP技术,以及怎么和TP和SP结合的。
我是有底线的