背景
最近,正赶上某一个DDL, 大家都在开足马力使用显卡疯狂跑实验,突然发现原先的实验配置在相同的4090机器上训练速度要慢2~3倍,一次实验的时长来到了9天,这有点难以接收。幸好有小伙伴帮忙搞到了一台4卡的A100资源,可以用。欣喜之余,也遇到了问题:如果我启一个任务,那么训练速度是正常的;如果在两张显卡上起分别起两个训练实验,则这两个训练实验的训练时长都会加倍,显然是两个实验出现了互相影响。也不能这么稀缺的显卡资源,每次只跑一个实验,感觉有种端着金饭碗要饿死的感觉。经过和AI的交流,4090的集群的训练问题还是无法解决;但是好在A100显卡上的实验速度恢复正常了。本文是对此次经历的一次记录。
现象描述
以每50个iteration的训练耗时来评判实验的训练速度,注意:下文中讲的实验A和B的配置可以立即为基本一致的同配置实验。
实验A和实验B:
CUDA_VISIBLE_DEVICES=0 python tool/train.py config/a.py
CUDA_VISIBLE_DEVICES=1 python tool/train.py config/b.py
| 实验启动情况 | 训练速度 |
|---|---|
| 仅启动实验A或B中的一个 | 20s per 50 iterations |
| 启动实验A和B | 40s per 50 iteraions(分别) |
解决方案
-
用一句话描述解决方案就是,为不同的实验手动分配指定的CPU核心,防止其互相发生抢占和切换。
CUDA_VISIBLE_DEVICES=0 taskset -c 0-23 python tool/train.py config/a.py
CUDA_VISIBLE_DEVICES=1 taskset -c 23-47 python tool/train.py config/b.py -
如果我的实验已经跑起来了,不想将其停止下来,在训练指令中指定CPU核心。可以通过下面的指令来为你 正在 训练的任务指定CPU核心。
-p 代表 PID,-c 代表核心列表
taskset -cp 0-23 <老任务的PID>
-
如果我 已经指定cpu核心过了,但是过了一段时间我想查看之前我是如何指定的,或者不确定我是否指定了。可以通过下面的指令来查询。
替换 <PID> 为你的 python 进程号
taskset -cp <PID>
-
如果你是一个追求极致的人,建议通过以下的指令,查看gpu和cpu核在本台机器上的物理硬件对应关系,最好是对应的gpu指定对应的cpu核索引(虽然我试了,不太有差异前后)
nvidia-smi topo -m
后续
| 实验启动情况 | 训练速度 |
|---|---|
| 仅启动实验A或B中的一个 | 20s per 50 iterations |
| 启动实验A和B | 40s per 50 iteraions(分别) |
| 启动实验A和B(指定cpu核后) | 22s per iterations和24s per iterations |
虽然,没有完全恢复到单个实验的那么快:20s,但是也是很知足了。有了大模型,真的好方便,其实本文中的指令也不用记忆,只要能思考 ,把自己的情形/问题能够抽象出prompt即可。另外就是在排查的时候,又看到一篇博客Making Deep Learning Go Brrrr From First Principles感觉蛮不错的,虽然还没看,是一位pytorch的核心贡献者写的,有机会可以看一看。