流水线并行

阿正的梦工坊15 天前
llm·流水线并行
大模型训练之流水线并行(Pipeline Parallelism)详解随着深度学习的飞速发展,大语言模型(LLM)的参数规模从数亿迅速膨胀到数千亿甚至万亿级别。GPT-3 拥有 1750 亿参数,PaLM 达到 5400 亿,而 Switch Transformer 更是突破了万亿大关。如此庞大的模型,单张 GPU 的显存早已无法容纳,分布式并行训练成为了必然选择。
三点水-here3 个月前
分布式·rdma·nccl·moe·流水线并行·张量并行·专家并行
04 - 分布式大模型推理实战:TP/PP/EP并行策略深度解析本文是《大模型推理框架深度解析》系列的第四篇,详解张量并行、流水线并行与专家并行的原理与配置。当你的模型从7B扩展到70B、405B,单卡显存已经无法满足需求时,分布式推理成为必然选择。但面对TP、PP、EP等各种并行策略,很多开发者感到困惑:
Bestaier2 年前
大模型·训练·数据并行·模型并行·megatron-lm·流水线并行·张量并行
跟代码执行流程,读Megatron源码(四)megatron初始化脚本initialize.py之initialize_megatron()分布式环境初始化在前文中,我们讲述了pretrain函数的执行流程,其首要步骤是megatron分组的初始化与环境的配置。本文将深入initialize_megatron函数源码,剖析其初始化分布式训练环境的内部机制。
Bestaier2 年前
数据并行·模型并行·megatron-lm·流水线并行·张量并行
跟代码执行流程,读Megatron源码(二)训练入口pretrain_gpt.pyMegatron-LM默认支持GPT、T5、BERT等多个常见模型的预训练,当下大模型流行,故以pretrain_gpt.py为例做源码的走读。
我是有底线的