Distributed data parallel (DDP)分布式训练

一次搞懂PyTorch DDP分布式训练_哔哩哔哩_bilibili

多机多卡,或单机多卡

几张卡初始化模型一样,每张卡分别拿不同的数据

几张开训练一轮后,会共享自己反向传播的梯度,然后对梯度取均值,来达到同步跟新的效果

all reduce:就是把所有卡的信息收即到自己这里来的这么一个通信操作。(4张卡就4个都会做,且是对同一批参数梯度同时对齐,也只有这样才能同时对齐)

(注意他同步梯度的时候,是边反向传播,边互相同步,而不是等反向传播完了之后在同步)

靠这个随机种子,来保证取数据大家 是同步的

jakeandjane/ddp-demo: Pytorch DDP Traning Demo

相关推荐
星辰_mya21 小时前
Redis 锁的“续命”艺术:看门狗机制与原子性陷阱
数据库·redis·分布式·缓存·面试
ezreal_pan21 小时前
Kafka Docker 部署避坑指南:监听器配置与客户端连接问题深度解析
分布式·docker·kafka
zhglhy1 天前
Java分布式链路技术
java·分布式·分布式链路
Shining05961 天前
推理引擎系列(四)《大模型计算优化与分布式推理》
人工智能·分布式·深度学习·机器学习·大模型·注意力机制·推理引擎
超级大福宝1 天前
集群中服务器的个数为什么最好是奇数个
服务器·分布式·后端
阿乐艾官1 天前
【Zookeeper 】
分布式·zookeeper·云原生
wangjialelele1 天前
详解Redis终端操作和Redis-plus-plus接口使用
linux·数据库·c++·redis·分布式·缓存·中间件
斯普信专业组1 天前
Kafka集群数据迁移方案:Kafka MirrorMaker2 实践
分布式·kafka·linq
假如梵高是飞行员1 天前
一种可信Agent架构设计思路,采用异步和分布式来提高效率
分布式·大模型·agent
zhglhy1 天前
Apache SkyWalking分布式链路实现
分布式·apache·skywalking