技术栈
切分
念念不忘 必有回响
16 天前
rag
·
切分
RAG 入门第二课:从 PDF 深度解析到智能入库全链路
在构建 RAG 系统时,我们常把精力花在调优大模型上,却忽略了最基础也最关键的一环——数据处理。俗话说“垃圾进,垃圾出”,如果文档读取乱码、切分支离破碎,再强大的模型也无法给出精准答案。
索木木
2 个月前
人工智能
·
深度学习
·
机器学习
·
大模型
·
训练
·
cp
·
切分
大模型训练CP切分(与TP、SP结合)
一. CP并行原理megatron中的context并行(简称CP)与sequence并行(简称SP)不同点在于,SP只针对Layernorm和Dropout输出的activation在sequence维度上进行切分,CP则是对所有的input输入和所有的输出activation在sequence维度上进行切分,可以看成是增强版的SP。之前我有篇文章重点讲了TP、SP、EP技术。本文我讲下长文本的CP技术,以及怎么和TP和SP结合的。
我是有底线的