Pytorch分布式train——pytorch.distributed.launch V.S. torchrun

1. 较早的pytorch.distributed.launch

python -m torch.distributed.launch --nproc_per_node=4 --nnodes=1 --node_rank=0 train.py --args XXX

参数解析:

nnodes:节点(主机)的数量,通常一个节点对应一个主机

node_rank:指的是当前启动的是第几台服务器,从 0 开始。

nproc_per_node:一个节点中显卡的数量

-master_addr:master节点的ip地址,也就是0号主机的IP地址,该参数是为了让 其他节点 知道0号节点的位,来将自己训练的参数传送过去处理

-master_port:master节点的port号,在不同的节点上master_addr和master_port的设置是一样的,用来进行通信

原文链接:http://t.csdnimg.cn/bDRj0

相关推荐
ada0_ada11 分钟前
产生式表示法
人工智能
yuezhilangniao3 分钟前
大白话AI运维K8S整体思路和相关名词-结合腾讯云
运维·人工智能·kubernetes
cxr8285 分钟前
视频工业化制作体系的专业AI多智能体虚拟制作团队构建分析
人工智能·架构·ai智能体
前端摸鱼匠5 分钟前
面试题2:Transformer的Encoder、Decoder结构分别包含哪些核心组件?
人工智能·深度学习·ai·面试·职场和发展·transformer
技术小黑5 分钟前
TensorFlow学习系列08 | 实现猫狗识别
人工智能·python·tensorflow2·vgg-16算法
ViiTor_AI5 分钟前
AI音频翻译原理详解:从语音识别到语音生成的完整流程(2026指南)
人工智能·音视频·语音识别
灵机一物7 分钟前
灵机一物AI智能电商小程序(已上线)-LangGraph落地电商购物Agent:搜索反馈回路从工程实践到产品化落地
人工智能·小程序
新新学长搞科研7 分钟前
【自动识别相关会议】第五届机器视觉、自动识别与检测国际学术会议(MVAID 2026)
人工智能·目标检测·计算机视觉·自动化·视觉检测·能源·语音识别
ShiMetaPi9 分钟前
Seeing the Unseen:基于事件相机的暗光重构特征提取方案
人工智能·计算机视觉·事件相机·evs
华农DrLai10 分钟前
什么是Prompt模板?为什么标准化的格式能提高稳定性?
数据库·人工智能·gpt·nlp·prompt