技术栈

切分

念念不忘 必有回响
16 天前
rag·切分
RAG 入门第二课:从 PDF 深度解析到智能入库全链路在构建 RAG 系统时,我们常把精力花在调优大模型上,却忽略了最基础也最关键的一环——数据处理。俗话说“垃圾进,垃圾出”,如果文档读取乱码、切分支离破碎,再强大的模型也无法给出精准答案。
索木木
2 个月前
人工智能·深度学习·机器学习·大模型·训练·cp·切分
大模型训练CP切分(与TP、SP结合)一. CP并行原理megatron中的context并行(简称CP)与sequence并行(简称SP)不同点在于,SP只针对Layernorm和Dropout输出的activation在sequence维度上进行切分,CP则是对所有的input输入和所有的输出activation在sequence维度上进行切分,可以看成是增强版的SP。之前我有篇文章重点讲了TP、SP、EP技术。本文我讲下长文本的CP技术,以及怎么和TP和SP结合的。
我是有底线的