Distributed data parallel (DDP)分布式训练

一次搞懂PyTorch DDP分布式训练_哔哩哔哩_bilibili

多机多卡,或单机多卡

几张卡初始化模型一样,每张卡分别拿不同的数据

几张开训练一轮后,会共享自己反向传播的梯度,然后对梯度取均值,来达到同步跟新的效果

all reduce:就是把所有卡的信息收即到自己这里来的这么一个通信操作。(4张卡就4个都会做,且是对同一批参数梯度同时对齐,也只有这样才能同时对齐)

(注意他同步梯度的时候,是边反向传播,边互相同步,而不是等反向传播完了之后在同步)

靠这个随机种子,来保证取数据大家 是同步的

jakeandjane/ddp-demo: Pytorch DDP Traning Demo

相关推荐
foundbug9993 小时前
Matlab基于分布式模型预测控制的多固定翼无人机共识控制
分布式·matlab·无人机
一个有温度的技术博主3 小时前
Redis集群实战:如何实现节点的弹性伸缩与数据迁移?
redis·分布式·缓存·架构
小雨青年4 小时前
鸿蒙 HarmonyOS 6 | 分布式数据同步详解
分布式·华为·harmonyos
2501_933329556 小时前
Infoseek舆情监测系统:基于大模型与多模态AI的品牌公关中台架构设计与实现
人工智能·分布式·自然语言处理·架构
小红的布丁6 小时前
MySQL 和 Redis 数据一致性,以及 Redis 与 ZooKeeper 分布式锁对比
redis·分布式·mysql
qq_396227956 小时前
Git 分布式版本控制
分布式·git
富士康质检员张全蛋6 小时前
Kafka JMS
分布式·kafka
心勤则明6 小时前
Spring AI Alibaba 分布式智能体实战:基于 A2A 协议的架构演进与落地
人工智能·分布式·spring
weisian1517 小时前
Java并发编程--29-分布式ID的6种方案:从单机到分库分表的“身份证”设计
java·分布式·雪花算法·美团leaf·百度uid
2603_954708317 小时前
微电网主从控制架构:集中式调度与分布式执行的协同机制
人工智能·分布式·物联网·架构·系统架构·能源