Distributed data parallel （DDP）分布式训练

m0_564876842026-02-04 13:41

一次搞懂PyTorch DDP分布式训练_哔哩哔哩_bilibili

多机多卡，或单机多卡

几张卡初始化模型一样，每张卡分别拿不同的数据

几张开训练一轮后，会共享自己反向传播的梯度，然后对梯度取均值，来达到同步跟新的效果

all reduce：就是把所有卡的信息收即到自己这里来的这么一个通信操作。（4张卡就4个都会做，且是对同一批参数梯度同时对齐，也只有这样才能同时对齐）

（注意他同步梯度的时候，是边反向传播，边互相同步，而不是等反向传播完了之后在同步）

靠这个随机种子，来保证取数据大家是同步的

jakeandjane/ddp-demo: Pytorch DDP Traning Demo

上一篇：【Qt 问题合集】Qt报错：No executable specified 如何解决呢？

下一篇：2026年AI搜索时代的品牌显性化挑战与微盟星启解决方案解析

热门推荐

01GitHub 镜像站点 02Qwen3.5 开源全解析：从 0.8B 到 397B，代际升级 + 全场景选型指南 03OpenClaw 使用和管理 MCP 完全指南 04UV安装并设置国内源 05OpenClaw Control UI安全上下文访问配置 06小黑课堂计算机二级WPSoffice题库软件下载安装教程（2026年3月最新版）07OpenClaw macOS 完整安装与本地模型配置教程（实战版）08Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 09本地部署 OpenClaw + DeepSeek-R1 完全指南 10AI 编程三剑客：Spec-Kit、OpenSpec、Superpowers 深度对比与实战指南