Pytorch分布式train——pytorch.distributed.launch V.S. torchrun

Learning改变世界2024-05-01 23:21

1. 较早的pytorch.distributed.launch

python -m torch.distributed.launch --nproc_per_node=4 --nnodes=1 --node_rank=0 train.py --args XXX

参数解析：

nnodes：节点（主机）的数量，通常一个节点对应一个主机

node_rank：指的是当前启动的是第几台服务器，从 0 开始。

nproc_per_node：一个节点中显卡的数量

-master_addr：master节点的ip地址，也就是0号主机的IP地址，该参数是为了让其他节点知道0号节点的位，来将自己训练的参数传送过去处理

-master_port：master节点的port号，在不同的节点上master_addr和master_port的设置是一样的，用来进行通信

原文链接：http://t.csdnimg.cn/bDRj0

上一篇：02.Scala简单演示

下一篇：uniapp 对接facebook第三方登录

热门推荐

01GitHub 镜像站点 02UV安装并设置国内源 03Linux下V2Ray安装配置指南 04从快手“12·22”直播攻击事件看：一次教科书式的业务层饱和攻击 05在VSCode配置Java开发环境的保姆级教程（适配各类AI编程IDE）06Gemini3 生成的基于手势控制3D粒子圣诞树 07解决 WSL Ubuntu 中 /etc/resolv.conf 自动重置问题 08Labelme从安装到标注：零基础完整指南 09CentOS的ISO镜像下载 10GLM-4.7 vs MiniMax-M2.1：代码工程理解