【快捷】通过指定CPU的分配解决A100服务器上多训练任务核心争抢导致的训练速度慢的问题

背景

最近,正赶上某一个DDL, 大家都在开足马力使用显卡疯狂跑实验,突然发现原先的实验配置在相同的4090机器上训练速度要慢2~3倍,一次实验的时长来到了9天,这有点难以接收。幸好有小伙伴帮忙搞到了一台4卡的A100资源,可以用。欣喜之余,也遇到了问题:如果我启一个任务,那么训练速度是正常的;如果在两张显卡上起分别起两个训练实验,则这两个训练实验的训练时长都会加倍,显然是两个实验出现了互相影响。也不能这么稀缺的显卡资源,每次只跑一个实验,感觉有种端着金饭碗要饿死的感觉。经过和AI的交流,4090的集群的训练问题还是无法解决;但是好在A100显卡上的实验速度恢复正常了。本文是对此次经历的一次记录。

现象描述

以每50个iteration的训练耗时来评判实验的训练速度,注意:下文中讲的实验A和B的配置可以立即为基本一致的同配置实验。

实验A和实验B:

复制代码
CUDA_VISIBLE_DEVICES=0 python tool/train.py config/a.py
CUDA_VISIBLE_DEVICES=1 python tool/train.py config/b.py
实验启动情况 训练速度
仅启动实验A或B中的一个 20s per 50 iterations
启动实验A和B 40s per 50 iteraions(分别)

解决方案

  1. 用一句话描述解决方案就是,为不同的实验手动分配指定的CPU核心,防止其互相发生抢占和切换。

    CUDA_VISIBLE_DEVICES=0 taskset -c 0-23 python tool/train.py config/a.py
    CUDA_VISIBLE_DEVICES=1 taskset -c 23-47 python tool/train.py config/b.py

  2. 如果我的实验已经跑起来了,不想将其停止下来,在训练指令中指定CPU核心。可以通过下面的指令来为你 正在 训练的任务指定CPU核心。

    -p 代表 PID,-c 代表核心列表

    taskset -cp 0-23 <老任务的PID>

  3. 如果我 已经指定cpu核心过了,但是过了一段时间我想查看之前我是如何指定的,或者不确定我是否指定了。可以通过下面的指令来查询。

    替换 为你的 python 进程号

    taskset -cp

  4. 如果你是一个追求极致的人,建议通过以下的指令,查看gpu和cpu核在本台机器上的物理硬件对应关系,最好是对应的gpu指定对应的cpu核索引(虽然我试了,不太有差异前后)

    nvidia-smi topo -m

后续

实验启动情况 训练速度
仅启动实验A或B中的一个 20s per 50 iterations
启动实验A和B 40s per 50 iteraions(分别)
启动实验A和B(指定cpu核后) 22s per iterations和24s per iterations

虽然,没有完全恢复到单个实验的那么快:20s,但是也是很知足了。有了大模型,真的好方便,其实本文中的指令也不用记忆,只要能思考 ,把自己的情形/问题能够抽象出prompt即可。另外就是在排查的时候,又看到一篇博客Making Deep Learning Go Brrrr From First Principles感觉蛮不错的,虽然还没看,是一位pytorch的核心贡献者写的,有机会可以看一看。

相关推荐
IT_陈寒1 小时前
Vite的热更新突然不香了,排查三小时差点砸键盘
前端·人工智能·后端
阿里云大数据AI技术3 小时前
构建高转化海外电商搜索:阿里云OpenSearch行业算法版的全链路智能优化策略实战
人工智能·搜索引擎
Awu12274 小时前
⚡从零开发 Agent CLI(五)实现一个可治理、可扩展的工具系统
前端·人工智能·claude
字节跳动视频云技术团队4 小时前
让 Agent 成为音视频工作台:AI MediaKit CLI + Skill 发布
人工智能·音视频开发
魏祖潇4 小时前
framework 整合实战——DDD/TDD/SDD 三件套在 framework 仓的真实落地
人工智能·后端
Token炼金师4 小时前
去噪扩散:从随机噪声到高保真图像的数学之路
人工智能·aigc
这个DBA有点耶4 小时前
AI写的SQL跑崩了生产库,这锅谁背?
数据库·人工智能·程序员
阿里云大数据AI技术5 小时前
阿里云 EMR AI 助手正式发布:从问答工具到全栈智能运维助手
运维·人工智能
Larcher6 小时前
从零搭建 MCP 服务——让 AI 拥有无限扩展能力
人工智能·程序员