技术栈
训练通信
数据与后端架构提升之路
5 小时前
nccl
·
训练通信
你的 GPU 为什么只能跑 20%?大模型训练通信瓶颈的四层排查 SOP
半夜三点,Grafana 大盘上 GPU 利用率持续在 15% 上下浮动。你盯着屏幕:算力没问题,显存没爆,loss 曲线也正常——训练就是慢得离谱。
我是有底线的