【快捷】通过指定CPU的分配解决A100服务器上多训练任务核心争抢导致的训练速度慢的问题

背景

最近,正赶上某一个DDL, 大家都在开足马力使用显卡疯狂跑实验,突然发现原先的实验配置在相同的4090机器上训练速度要慢2~3倍,一次实验的时长来到了9天,这有点难以接收。幸好有小伙伴帮忙搞到了一台4卡的A100资源,可以用。欣喜之余,也遇到了问题:如果我启一个任务,那么训练速度是正常的;如果在两张显卡上起分别起两个训练实验,则这两个训练实验的训练时长都会加倍,显然是两个实验出现了互相影响。也不能这么稀缺的显卡资源,每次只跑一个实验,感觉有种端着金饭碗要饿死的感觉。经过和AI的交流,4090的集群的训练问题还是无法解决;但是好在A100显卡上的实验速度恢复正常了。本文是对此次经历的一次记录。

现象描述

以每50个iteration的训练耗时来评判实验的训练速度,注意:下文中讲的实验A和B的配置可以立即为基本一致的同配置实验。

实验A和实验B:

复制代码
CUDA_VISIBLE_DEVICES=0 python tool/train.py config/a.py
CUDA_VISIBLE_DEVICES=1 python tool/train.py config/b.py
实验启动情况 训练速度
仅启动实验A或B中的一个 20s per 50 iterations
启动实验A和B 40s per 50 iteraions(分别)

解决方案

  1. 用一句话描述解决方案就是,为不同的实验手动分配指定的CPU核心,防止其互相发生抢占和切换。

    CUDA_VISIBLE_DEVICES=0 taskset -c 0-23 python tool/train.py config/a.py
    CUDA_VISIBLE_DEVICES=1 taskset -c 23-47 python tool/train.py config/b.py

  2. 如果我的实验已经跑起来了,不想将其停止下来,在训练指令中指定CPU核心。可以通过下面的指令来为你 正在 训练的任务指定CPU核心。

    -p 代表 PID,-c 代表核心列表

    taskset -cp 0-23 <老任务的PID>

  3. 如果我 已经指定cpu核心过了,但是过了一段时间我想查看之前我是如何指定的,或者不确定我是否指定了。可以通过下面的指令来查询。

    替换 为你的 python 进程号

    taskset -cp

  4. 如果你是一个追求极致的人,建议通过以下的指令,查看gpu和cpu核在本台机器上的物理硬件对应关系,最好是对应的gpu指定对应的cpu核索引(虽然我试了,不太有差异前后)

    nvidia-smi topo -m

后续

实验启动情况 训练速度
仅启动实验A或B中的一个 20s per 50 iterations
启动实验A和B 40s per 50 iteraions(分别)
启动实验A和B(指定cpu核后) 22s per iterations和24s per iterations

虽然,没有完全恢复到单个实验的那么快:20s,但是也是很知足了。有了大模型,真的好方便,其实本文中的指令也不用记忆,只要能思考 ,把自己的情形/问题能够抽象出prompt即可。另外就是在排查的时候,又看到一篇博客Making Deep Learning Go Brrrr From First Principles感觉蛮不错的,虽然还没看,是一位pytorch的核心贡献者写的,有机会可以看一看。

相关推荐
老虾头3 分钟前
合规化背景下,本地私有 AI 成为行业主流发展方向
大数据·人工智能
行业研究员4 分钟前
腾讯会议同传功能实测与选型建议
大数据·人工智能·腾讯会议·腾讯会议会议同传
企业智能研究12 分钟前
企微智能客服赋能私域运营:从流量沉淀到高效转化的完整路径
人工智能·ai·agent·智能客服·私域运营
namexingyun17 分钟前
开源前端生态如何成为 AI UI 生成的“燃料“:shadcn/ui、Tailwind CSS、Storybook 技术价值全解剖
java·前端·人工智能·python·ui·开源·ai编程
王小王-12319 分钟前
基于机器学习算法的恶意软件行为分析与检测系统设计与实现
机器学习·pyqt5·检测系统·恶意软件行为检测
Sharewinfo_BJ19 分钟前
当 BI 遇上 AI:到底是谁在帮谁?
大数据·人工智能·ai·数据分析·微软·powerbi
code_pgf23 分钟前
mllm训练过程中有效地利用辅助监督信号来减少幻觉的方法
人工智能·深度学习·计算机视觉
风华圆舞26 分钟前
鸿蒙 + Flutter 下 AI 助手为什么要支持流式输出
人工智能·flutter·harmonyos
爱勇宝26 分钟前
如何评价 Claude Fable 5 全球暂停访问?
人工智能·程序员
装不满的克莱因瓶26 分钟前
自然语言处理常见任务——从文本理解到生成式AI的完整任务体系
人工智能·pytorch·python·深度学习·ai·自然语言处理