Pytorch分布式train——pytorch.distributed.launch V.S. torchrun

1. 较早的pytorch.distributed.launch

python -m torch.distributed.launch --nproc_per_node=4 --nnodes=1 --node_rank=0 train.py --args XXX

参数解析:

nnodes:节点(主机)的数量,通常一个节点对应一个主机

node_rank:指的是当前启动的是第几台服务器,从 0 开始。

nproc_per_node:一个节点中显卡的数量

-master_addr:master节点的ip地址,也就是0号主机的IP地址,该参数是为了让 其他节点 知道0号节点的位,来将自己训练的参数传送过去处理

-master_port:master节点的port号,在不同的节点上master_addr和master_port的设置是一样的,用来进行通信

原文链接:http://t.csdnimg.cn/bDRj0

相关推荐
棒棒的皮皮2 分钟前
【深度学习】YOLO 模型典型应用场景分析(安防 / 自动驾驶 / 工业质检 / 医疗影像 / 智慧城市)
人工智能·深度学习·yolo·计算机视觉·自动驾驶
小雨下雨的雨3 分钟前
Flutter鸿蒙共赢——生命之痕:图灵图样与反应-扩散方程的生成美学
分布式·flutter·华为·交互·harmonyos·鸿蒙系统
木梯子4 分钟前
CES2026的AI硬件热,暴露了实时音视频的刚需
人工智能·实时音视频
koo3645 分钟前
pytorch深度学习笔记15
pytorch·笔记·深度学习
有赞技术8 分钟前
从0到1:有赞AI客服的实践路径与落地思考
人工智能·agent
DX_水位流量监测10 分钟前
阵列雷达波测流监测技术:原理、参数与应用实践
大数据·网络·人工智能·信息可视化·数据分析
音视频开发_AIZ14 分钟前
比OpenAI语音模型落地更快!基于RTC SDK搭建语音实时互动智能体教程
人工智能·语言模型·自然语言处理·实时互动·语音识别·实时音视频
中国云报17 分钟前
构建AI时代的自动驾驶网络:HPE的匠心与巧思
网络·人工智能·机器学习·自动驾驶
ifenxi爱分析18 分钟前
智能体时代,大厂向应用层渗透的逻辑与路径
网络·人工智能
彭思远200621 分钟前
从 0 到 1 搭建心脏病预测模型:一名大二学生的机器学习实践手记
人工智能·机器学习