【论文阅读】

4. Analysis of Large-Scale Multi-Tenant GPU Clusters for DNN Training Workloads
  • 出处:2019 USENIX-TAC 大规模多租户GPU集群对DNN训练工作负载的分析

  • 主要工作:描述了Microsoft中一个多租户GPU集群两个月的工作负载特征,研究影响多租户集群上DNN训练工作负载的集群利用率的三个问题:

    • 队列调度和局部性约束对队列的影响。
    • 局部性对GPU利用率的影响。
    • 训练期间的故障问题。
  • 介绍GPU集群Philly:

① 传入作业和排队:用户可指定GPU数量,调度器跟踪集群中所有空闲GPU,调度时首先考虑机架,然后考虑机架中可用GPU最多的服务器。

②作业放置和利用:将小作业打包到更少的服务器中来避免资源碎片。一旦作业被安排运行,它的GPU就不会与其他作业共享。

③训练进度和完成情况:有三种可能情况:passed:已完成;killed:被用户终止;unsuccessful:不成功。

  • 工具:Apache-Yarn, 是一种新的Hadoop资源管理器,是一个通用资源管理系统 和调度平台,可以为上层应用提供统一的资源管理和调度。
  • 展望:
    • 局部性优先:缺乏局部性会影响利用率和作业运行时间。等待有限的时间来查看是否可以实现局部性,如果不能,则使用局部性宽松的可用资源来调度作业( 从而减少用户的排队时间)。
    • 减轻干扰:将不同小作业放在专用服务器上,而不是打包到单个服务器,从而减少这些作业之间的干扰,但会增加碎片化。所以要支持作业迁移以对集群进行碎片整理。
    • 改进故障处理:大量作业失败是由于代码或配置中的用户错误造成,语法检查可以放置许多错误,并且可以通过运行训练的第一次迭代来捕获一些运行时错误。
相关推荐
kupeThinkPoem1 小时前
代码生成工具Amazon CodeWhisperer介绍
人工智能
weixin79893765432...1 小时前
前端开发者如何拥抱 AI-Agent(科普)
人工智能·ai
晨非辰2 小时前
【数据结构初阶系列】归并排序全透视:从算法原理全分析到源码实战应用
运维·c语言·数据结构·c++·人工智能·python·深度学习
菠菠萝宝3 小时前
【Java手搓RAGFlow】-3- 用户认证与权限管理
java·开发语言·人工智能·llm·openai·qwen·rag
youngfengying4 小时前
《轻量化 Transformers:开启计算机视觉新篇》
人工智能·计算机视觉
搞科研的小刘选手6 小时前
【同济大学主办】第十一届能源资源与环境工程研究进展国际学术会议(ICAESEE 2025)
大数据·人工智能·能源·材质·材料工程·地理信息
MARS_AI_6 小时前
云蝠智能 VoiceAgent 2.0:全栈语音交互能力升级
人工智能·自然语言处理·交互·信息与通信·agi
top_designer6 小时前
Substance 3D Stager:电商“虚拟摄影”工作流
人工智能·3d·设计模式·prompt·技术美术·教育电商·游戏美术
雷神大青椒6 小时前
离别的十字路口: 是否还记得曾经追求的梦想
人工智能·程序人生·职场和发展·玩游戏
m0_650108247 小时前
多模态大模型 VS. 图像视频生成模型浅析
人工智能·技术边界与协同·mllm与生成模型·技术浅谈