Distributed data parallel (DDP)分布式训练

一次搞懂PyTorch DDP分布式训练_哔哩哔哩_bilibili

多机多卡,或单机多卡

几张卡初始化模型一样,每张卡分别拿不同的数据

几张开训练一轮后,会共享自己反向传播的梯度,然后对梯度取均值,来达到同步跟新的效果

all reduce:就是把所有卡的信息收即到自己这里来的这么一个通信操作。(4张卡就4个都会做,且是对同一批参数梯度同时对齐,也只有这样才能同时对齐)

(注意他同步梯度的时候,是边反向传播,边互相同步,而不是等反向传播完了之后在同步)

靠这个随机种子,来保证取数据大家 是同步的

jakeandjane/ddp-demo: Pytorch DDP Traning Demo

相关推荐
风吹夏回14 天前
RabbitMQ 核心术语 + Python pika 方法完整讲解
分布式·python·rabbitmq
风吹夏回14 天前
RabbitMQ 三种模式入门:HelloWorld、WorkQueue、PubSub
分布式·rabbitmq·ruby
霸道流氓气质14 天前
分布式追踪与 RequestId 传播完全指南
分布式
cheems952714 天前
[RabbitMQ高级特性] 消息确认机制:从 Ready / Unacked 到 basicAck、basicReject、basicNack 的底层拆解
分布式·rabbitmq·ruby
枫华落尽14 天前
【Hadoop01-完全分布式运行模式】
分布式
隔壁阿布都14 天前
ShedLock 分布式定时任务锁框架介绍
spring boot·分布式
文艺倾年14 天前
【强化学习】数学推导专题,20W字总结(十五)
人工智能·分布式·大模型·强化学习·vibecoding
ACP广源盛1392462567314 天前
GSV9001S@ACP#1080P 级视频处理芯片,物理 AI 普及终端的高性价比选择
大数据·人工智能·分布式·嵌入式硬件·spark
guslegend14 天前
第1章:初始Kafka
分布式·kafka
ACP广源盛1392462567314 天前
GSV5600@ACP#多接口协议转换芯片,物理 AI 便携终端的互联核心
大数据·人工智能·分布式·嵌入式硬件·spark