Distributed data parallel (DDP)分布式训练

一次搞懂PyTorch DDP分布式训练_哔哩哔哩_bilibili

多机多卡,或单机多卡

几张卡初始化模型一样,每张卡分别拿不同的数据

几张开训练一轮后,会共享自己反向传播的梯度,然后对梯度取均值,来达到同步跟新的效果

all reduce:就是把所有卡的信息收即到自己这里来的这么一个通信操作。(4张卡就4个都会做,且是对同一批参数梯度同时对齐,也只有这样才能同时对齐)

(注意他同步梯度的时候,是边反向传播,边互相同步,而不是等反向传播完了之后在同步)

靠这个随机种子,来保证取数据大家 是同步的

jakeandjane/ddp-demo: Pytorch DDP Traning Demo

相关推荐
BYSJMG3 小时前
计算机毕设选题推荐:基于Hadoop的交通事故数据可视化分析系统
大数据·vue.js·hadoop·分布式·后端·信息可视化·课程设计
野犬寒鸦3 小时前
从零起步学习并发编程 || 第三章:JMM(Java内存模型)详解及对比剖析
java·服务器·开发语言·分布式·后端·学习·spring
虫小宝5 小时前
查券返利机器人的异步任务调度:Java XXL-Job+Redis实现海量查券请求的分布式任务分发
java·redis·分布式
yq1982043011566 小时前
构建高可用资源导航平台:基于Django+Scrapy的分布式架构实践
分布式·scrapy·django
你这个代码我看不懂6 小时前
Kafka常见问题解答
分布式·kafka
Tony Bai7 小时前
Git 即数据库:Beads (bd) —— 专为 AI Agent 打造的分布式任务追踪引擎
数据库·人工智能·分布式·git
小邓睡不饱耶7 小时前
Spark Streaming实时微博热文分析系统:架构设计与深度实现
大数据·分布式·spark
北亚数据恢复7 小时前
分布式数据恢复—Ceph+TiDB数据恢复报告
分布式·ceph·数据恢复·tidb·服务器数据恢复·北亚数据恢复·存储数据恢复
Zilliz Planet7 小时前
<span class=“js_title_inner“>Spark做ETL,与Ray/Daft做特征工程的区别在哪里,如何选型?</span>
大数据·数据仓库·分布式·spark·etl