Pytorch ddp切换forward函数 验证ddp是否生效

DDP及其在pytorch中应用

ddp默认调用forward函数,有些模型无法使用forward函数,可以对模型包装一下。

python 复制代码
class modelWraper(nn.Module):
    def __init__(self, model):
        super().__init__()
        self.model = model

    def forward(self, *args, **kwargs):
        return self.model.rlhf(*args, **kwargs)

有时ddp跑起来,不确定是否生效,loss backward后不同rank进程的梯度应该一样的,可以通过print 梯度确认。

python 复制代码
loss.backward()
grad_flag = raw_model.lm_head.weight.grad[0,:3]
print(f"grad {ddp_rank} {grad_flag}")


grad 1 tensor([2.9296e-04, 6.2223e-05, 1.0089e-03], device='cuda:1')
grad 0 tensor([2.9296e-04, 6.2223e-05, 1.0089e-03], device='cuda:0')

pytorch分布式系列2------DistributedDataParallel是如何做同步的?

相关推荐
雪下的新火3 分钟前
AI工具-Hyper3D
人工智能·aigc·blender·ai工具·笔记分享
MediaTea30 分钟前
Python:模块 __dict__ 详解
开发语言·前端·数据库·python
jarreyer37 分钟前
python,numpy,pandas和matplotlib版本对应关系
python·numpy·pandas
Das142 分钟前
【机器学习】01_模型选择与评估
人工智能·算法·机器学习
墨染天姬1 小时前
【AI】AI时代,模组厂商如何建立自己的AI护城河?
人工智能
aigcapi1 小时前
[深度观察] RAG 架构重塑流量分发:2025 年 GEO 优化技术路径与头部服务商选型指南
大数据·人工智能·架构
字节跳动开源1 小时前
Midscene v1.0 发布 - 视觉驱动,UI 自动化体验跃迁
前端·人工智能·客户端
代码or搬砖1 小时前
HashMap源码
开发语言·python·哈希算法
+wacyltd大模型备案算法备案2 小时前
大模型备案怎么做?2025年企业大模型备案全流程与材料清单详解
人工智能·大模型备案·算法备案·大模型上线登记
吾在学习路2 小时前
故事型总结:Swin Transformer 是如何打破 Vision Transformer 壁垒的?
人工智能·深度学习·transformer