Pytorch ddp切换forward函数 验证ddp是否生效

DDP及其在pytorch中应用

ddp默认调用forward函数,有些模型无法使用forward函数,可以对模型包装一下。

python 复制代码
class modelWraper(nn.Module):
    def __init__(self, model):
        super().__init__()
        self.model = model

    def forward(self, *args, **kwargs):
        return self.model.rlhf(*args, **kwargs)

有时ddp跑起来,不确定是否生效,loss backward后不同rank进程的梯度应该一样的,可以通过print 梯度确认。

python 复制代码
loss.backward()
grad_flag = raw_model.lm_head.weight.grad[0,:3]
print(f"grad {ddp_rank} {grad_flag}")


grad 1 tensor([2.9296e-04, 6.2223e-05, 1.0089e-03], device='cuda:1')
grad 0 tensor([2.9296e-04, 6.2223e-05, 1.0089e-03], device='cuda:0')

pytorch分布式系列2------DistributedDataParallel是如何做同步的?

相关推荐
多则惑少则明12 小时前
AI测试、大模型测试(三)AI语音产品测试&AI测试边界
人工智能·语音识别·ai大模型测试
后端小肥肠13 小时前
突破 LLM 极限!n8n + MemMachine 打造“无限流”小说生成器
人工智能·aigc·agent
道199313 小时前
PyTorch 从小白到高级进阶教程[工业级示例](三)
人工智能·pytorch·python
南山乐只13 小时前
【原文翻译搬运】Equipping agents for the real world with Agent Skills
人工智能·职场和发展·创业创新
AI营销快线13 小时前
金融AI内容合规,三类系统怎么选?
大数据·人工智能
测试人社区-千羽13 小时前
智能测试的终极形态:从自动化到自主化的范式变革
运维·人工智能·python·opencv·测试工具·自动化·开源软件
用户91860343127313 小时前
AI重塑云原生应用开发实战-极客时间
人工智能
秋刀鱼 ..13 小时前
2026年机器人感知与智能控制国际学术会议(RPIC 2026)
运维·人工智能·科技·金融·机器人·自动化
listhi52013 小时前
使用Hopfield神经网络解决旅行商问题
人工智能·深度学习·神经网络
锐学AI13 小时前
从零开始学MCP(八)- 构建一个MCP server
人工智能·python