技术栈
异步训练
数据与后端架构提升之路
4 小时前
梯度压缩
·
异步训练
你的 GPU 在偷偷摸鱼——聊聊梯度压缩与异步训练
分布式训练的终极矛盾不是算力不够,而是 GPU 算完了没事干,全在等网络传数据。如果你正在做大模型分布式训练,大概率遇到过这种场景:四台八卡机拉满,nvidia-smi 一看,GPU 利用率在 30% 和 98% 之间反复横跳。算的时候猛如虎,传梯度的时候全体摸鱼。
我是有底线的