Pytorch分布式train——pytorch.distributed.launch V.S. torchrun

1. 较早的pytorch.distributed.launch

python -m torch.distributed.launch --nproc_per_node=4 --nnodes=1 --node_rank=0 train.py --args XXX

参数解析:

nnodes:节点(主机)的数量,通常一个节点对应一个主机

node_rank:指的是当前启动的是第几台服务器,从 0 开始。

nproc_per_node:一个节点中显卡的数量

-master_addr:master节点的ip地址,也就是0号主机的IP地址,该参数是为了让 其他节点 知道0号节点的位,来将自己训练的参数传送过去处理

-master_port:master节点的port号,在不同的节点上master_addr和master_port的设置是一样的,用来进行通信

原文链接:http://t.csdnimg.cn/bDRj0

相关推荐
神算大模型APi--天枢6468 分钟前
合规与高效兼得:国产全栈架构赋能行业大模型定制,从教育到工业的轻量化落地
大数据·前端·人工智能·架构·硬件架构
Coding茶水间28 分钟前
基于深度学习的学生上课行为检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
图像处理·人工智能·深度学习·yolo·目标检测·机器学习·计算机视觉
Channing Lewis40 分钟前
脑机智能会成为意识迁移的过渡形态吗
人工智能
有为少年1 小时前
Welford 算法 | 优雅地计算海量数据的均值与方差
人工智能·深度学习·神经网络·学习·算法·机器学习·均值算法
云和数据.ChenGuang2 小时前
Logstash配置文件的**语法解析错误**
运维·数据库·分布式·rabbitmq·jenkins
GISer_Jing2 小时前
跨境营销前端AI应用业务领域
前端·人工智能·aigc
Ven%2 小时前
从单轮问答到连贯对话:RAG多轮对话技术详解
人工智能·python·深度学习·神经网络·算法
OpenCSG2 小时前
OpenCSG社区:激发城市AI主权创新引擎
人工智能·opencsg·agentichub
大厂技术总监下海2 小时前
没有千卡GPU,如何从0到1构建可用LLM?nanoChat 全栈实践首次公开
人工智能·开源
机器之心2 小时前
谁还敢说谷歌掉队?2025年,它打了一场漂亮的翻身仗
人工智能·openai