【快捷】通过指定CPU的分配解决A100服务器上多训练任务核心争抢导致的训练速度慢的问题

背景

最近,正赶上某一个DDL, 大家都在开足马力使用显卡疯狂跑实验,突然发现原先的实验配置在相同的4090机器上训练速度要慢2~3倍,一次实验的时长来到了9天,这有点难以接收。幸好有小伙伴帮忙搞到了一台4卡的A100资源,可以用。欣喜之余,也遇到了问题:如果我启一个任务,那么训练速度是正常的;如果在两张显卡上起分别起两个训练实验,则这两个训练实验的训练时长都会加倍,显然是两个实验出现了互相影响。也不能这么稀缺的显卡资源,每次只跑一个实验,感觉有种端着金饭碗要饿死的感觉。经过和AI的交流,4090的集群的训练问题还是无法解决;但是好在A100显卡上的实验速度恢复正常了。本文是对此次经历的一次记录。

现象描述

以每50个iteration的训练耗时来评判实验的训练速度,注意:下文中讲的实验A和B的配置可以立即为基本一致的同配置实验。

实验A和实验B:

复制代码
CUDA_VISIBLE_DEVICES=0 python tool/train.py config/a.py
CUDA_VISIBLE_DEVICES=1 python tool/train.py config/b.py
实验启动情况 训练速度
仅启动实验A或B中的一个 20s per 50 iterations
启动实验A和B 40s per 50 iteraions(分别)

解决方案

  1. 用一句话描述解决方案就是,为不同的实验手动分配指定的CPU核心,防止其互相发生抢占和切换。

    CUDA_VISIBLE_DEVICES=0 taskset -c 0-23 python tool/train.py config/a.py
    CUDA_VISIBLE_DEVICES=1 taskset -c 23-47 python tool/train.py config/b.py

  2. 如果我的实验已经跑起来了,不想将其停止下来,在训练指令中指定CPU核心。可以通过下面的指令来为你 正在 训练的任务指定CPU核心。

    -p 代表 PID,-c 代表核心列表

    taskset -cp 0-23 <老任务的PID>

  3. 如果我 已经指定cpu核心过了,但是过了一段时间我想查看之前我是如何指定的,或者不确定我是否指定了。可以通过下面的指令来查询。

    替换 <PID> 为你的 python 进程号

    taskset -cp <PID>

  4. 如果你是一个追求极致的人,建议通过以下的指令,查看gpu和cpu核在本台机器上的物理硬件对应关系,最好是对应的gpu指定对应的cpu核索引(虽然我试了,不太有差异前后)

    nvidia-smi topo -m

后续

实验启动情况 训练速度
仅启动实验A或B中的一个 20s per 50 iterations
启动实验A和B 40s per 50 iteraions(分别)
启动实验A和B(指定cpu核后) 22s per iterations和24s per iterations

虽然,没有完全恢复到单个实验的那么快:20s,但是也是很知足了。有了大模型,真的好方便,其实本文中的指令也不用记忆,只要能思考 ,把自己的情形/问题能够抽象出prompt即可。另外就是在排查的时候,又看到一篇博客Making Deep Learning Go Brrrr From First Principles感觉蛮不错的,虽然还没看,是一位pytorch的核心贡献者写的,有机会可以看一看。

相关推荐
水如烟11 小时前
孤能子视角:“Introspection Adapter(IA)“,“代偿哨兵翻译层“
人工智能
AI_小站16 小时前
6个GitHub爆火的免费大模型教程,助你快速进阶AI编程
人工智能·langchain·github·知识图谱·agent·llama·rag
xindoo16 小时前
GitHub Trending霸榜!深度解析AI Coding辅助神器 Superpowers
人工智能·github
时间之里17 小时前
【深度学习】:RF-DETR与yolo对比
人工智能·深度学习·yolo
北京阿法龙科技有限公司17 小时前
数智化升级:AR 智能眼镜驱动工业运维效能革新
人工智能
风落无尘17 小时前
《智能重生:从垃圾堆到AI工程师》——第二章 概率与生存
大数据·人工智能
j_xxx404_17 小时前
Linux:静态链接与动态链接深度解析
linux·运维·服务器·c++·人工智能
收获不止数据库17 小时前
达梦9发布会归来:AI 时代,我们需要一款什么样的数据库?
数据库·人工智能·ai·语言模型·数据分析
hhb_61817 小时前
AI全栈编程生存指南
人工智能