PyTorch分布式训练常见错误包括端口被占、MASTER_ADDR配置错误、init_process_group超时及torchrun环境变量冲突;需检查端口占用、使用真实IP、确保WORLD_SIZE与RANK一致、避免手动设置torchrun管理的环境变量。PyTorch分布式训练报错 RuntimeError: Address already in use端口被占是初始化失败最常见原因,不是代码写错了,而是本地已有进程(比如上一次没杀干净的 python 或 torch.distributed 进程)绑定了 MASTER_PORT。实操建议:立即学习"Python免费学习笔记(深入)";先用 lsof -i :<code>MASTER_PORT(macOS/Linux)或 netstat -ano | findstr :<code>MASTER_PORT(Windows)查占用进程确认无用后直接 kill:kill -9 <code>PID(Linux/macOS)或 taskkill /F /PID <code>PID(Windows)更稳妥的做法:每次启动前换一个随机端口,比如用 export MASTER_PORT=((10000 + RANDOM % 1000))别用默认的 29500 ------ 它太常见,CI/本地多任务并行时极易冲突MASTER_ADDR 设成本机 localhost 却在多机训练中失败单机多卡能跑不代表多机通,localhost 在每台机器上都指向自己,跨机器根本连不上。实操建议:立即学习"Python免费学习笔记(深入)";必须设为可被所有节点访问的真实 IP,比如主节点网卡地址(非 127.0.0.1、非 localhost、非 Docker 内网 IP)运行前先手动 ping 测试:ping <code>MASTER_ADDR 从所有 worker 节点执行,不通就别往下试如果走 SSH 登录训练,注意云服务器安全组是否放行了 MASTER_PORT 端口(TCP)Docker 场景下,避免用 --network=host 外还设 localhost ------ 容器内 localhost 不等于宿主机网络命名空间init_process_group 调用超时卡死,日志停在 initializing process group这不是程序卡住,是等待其他 rank 连接超时。PyTorch 默认等 300 秒,期间只要有一个 rank 没 join,全部挂起。 稿定AI 拥有线稿上色优化、图片重绘、人物姿势检测、涂鸦完善等功能
相关推荐
AIFQuant5 小时前
2026 全球股票/外汇/贵金属行情 API 深度对比:延迟、覆盖、价格与稳定性Ray Liang6 小时前
吐血整理JSON-RPC2.0的原理与应用㳺三才人子6 小时前
簡單的 語音助手计算机毕业编程指导师6 小时前
【计算机毕设推荐】Python+Hadoop+Spark共享单车数据可视化分析系统 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘2301_795099746 小时前
golang如何在Gin中自定义验证器_golang Gin自定义验证器实现方法计算机毕业编程指导师6 小时前
【计算机毕设】基于Hadoop的共享单车订单数据分析系统+Python+Django全栈开发 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘2301_766283446 小时前
如何在MongoDB GridFS中进行按文件大小(length)范围的查询他是龙5516 小时前
71:Python安全 & 反序列化 & PYC反编译 & 格式化字符串安全2601_956139426 小时前
文体娱媒品牌全案公司哪家强那我掉的头发算什么7 小时前
【面试八股】一篇文章讲清楚JVM面试常考