Distributed data parallel (DDP)分布式训练

一次搞懂PyTorch DDP分布式训练_哔哩哔哩_bilibili

多机多卡,或单机多卡

几张卡初始化模型一样,每张卡分别拿不同的数据

几张开训练一轮后,会共享自己反向传播的梯度,然后对梯度取均值,来达到同步跟新的效果

all reduce:就是把所有卡的信息收即到自己这里来的这么一个通信操作。(4张卡就4个都会做,且是对同一批参数梯度同时对齐,也只有这样才能同时对齐)

(注意他同步梯度的时候,是边反向传播,边互相同步,而不是等反向传播完了之后在同步)

靠这个随机种子,来保证取数据大家 是同步的

jakeandjane/ddp-demo: Pytorch DDP Traning Demo

相关推荐
ha_lydms1 小时前
AnalyticDB分区、分布键性能优化
android·大数据·分布式·性能优化·分布式计算·分区·analyticdb
pqk6V6Vep1 小时前
Redis 分布式锁进阶第一篇讲解
数据库·redis·分布式
giaz14n9X1 小时前
Redis 分布式锁进阶第六十一篇
数据库·redis·分布式
洛水水3 小时前
消息队列与Kafka详解
分布式·kafka
鸿乃江边鸟4 小时前
Spark中怎么做Spark canonicalize归一化
大数据·分布式·spark
SLD_Allen5 小时前
Kafka分区与消费者的关系kafka分区和消费者线程的关系
分布式·kafka
he___H5 小时前
数据密集型应用系统设计--其一
分布式
珠***格7 小时前
Ⅱ型边缘网关|易部署、易扩容、易改造
大数据·人工智能·分布式·能源·边缘计算
无心水7 小时前
17、本地多模态|Qwen-VL离线私有化提取敏感PDF完全指南
人工智能·分布式·架构·openclaw·hermes
Solis程序员8 小时前
分布式 SingleFlight:从单机请求合并到集群级远程调用去重
分布式