GPU 集群调度架构解析


子玥酱 (掘金 / 知乎 / CSDN / 简书 同名)

大家好,我是 子玥酱,一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂,目前在某国企负责前端软件研发相关工作,主要聚焦于业务型系统的工程化建设与长期维护。

我持续输出和沉淀前端领域的实战经验,日常关注并分享的技术方向包括 前端工程化、小程序、React / RN、Flutter、跨端方案,

在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。

技术方向: 前端 / 跨端 / 小程序 / 移动端工程化 内容平台: 掘金、知乎、CSDN、简书 创作特点: 实战导向、源码拆解、少空谈多落地 **文章状态:**长期稳定更新,大量原创输出

我的内容主要围绕 前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读 展开。文章不会停留在"API 怎么用",而是更关注为什么这么设计、在什么场景下容易踩坑、真实项目中如何取舍,希望能帮你在实际工作中少走弯路。

子玥酱 · 前端成长记录官 ✨

👋 如果你正在做前端,或准备长期走前端这条路

📚 关注我,第一时间获取前端行业趋势与实践总结

🎁 可领取 11 类前端进阶学习资源 (工程化 / 框架 / 跨端 / 面试 / 架构)

💡 一起把技术学"明白",也用"到位"

持续写作,持续进阶。

愿我们都能在代码和生活里,走得更稳一点 🌱

文章目录

引言

过去几年,大模型行业有一个非常有趣的现象。

大家讨论最多的是:

text 复制代码
GPT
DeepSeek
Llama
Qwen
Claude

讨论第二多的是:

text 复制代码
训练框架
推理框架
MoE
RLHF
Agent

但真正决定一家 AI 公司成本和效率的,往往不是这些。

而是:

text 复制代码
GPU 集群调度系统

很多团队购买了几百张 GPU 后才发现:

GPU 不够贵,闲置才最贵。

例如:

text 复制代码
GPU 利用率仅30%
任务长期排队
训练任务互相抢资源
推理服务频繁扩缩容

最终导致:

text 复制代码
算力很多
效率很低

因此对于 AI 基础设施团队来说:

GPU Scheduler 才是真正的"大脑"。

甚至可以说:

text 复制代码
GPU = CPU

GPU Scheduler = Kubernetes

如果没有调度系统:

text 复制代码
1000张GPU
≈
100张GPU

因为大部分资源都会被浪费。

一、为什么 GPU 调度如此困难

很多人第一次接触 GPU 集群时会觉得:

text 复制代码
CPU调度都解决了

GPU调度有什么难的?

实际上完全不同,CPU 调度:

text 复制代码
任务粒度小
资源弹性高
切换成本低

GPU 调度:

text 复制代码
任务巨大
资源昂贵
切换成本高

例如,一个 Web 服务:

text 复制代码
2 Core
4 GB RAM

随时可以迁移,但一个大模型训练任务:

text 复制代码
64 GPU
512 CPU
2TB Memory

一旦启动:

text 复制代码
不能轻易迁移

否则代价极高。

二、GPU 集群核心架构

典型架构如下:

text 复制代码
                  User

                    │

                    ▼

          ┌─────────────────┐
          │ Submit Job      │
          └────────┬────────┘

                   ▼

          ┌─────────────────┐
          │ Scheduler       │
          └────────┬────────┘

                   ▼

    ┌─────────────────────────────┐
    │ Resource Manager            │
    └───────────┬─────────────────┘

                ▼

      ┌────────────────────┐
      │ GPU Cluster        │
      └────────────────────┘

核心组件包括:

text 复制代码
Job Queue
Scheduler
Resource Manager
Node Manager
Monitor

三、任务提交流程

训练任务启动时:

bash 复制代码
python train.py

实际上背后发生了很多事情。用户提交:

yaml 复制代码
gpu: 8

cpu: 64

memory: 512G

进入:

text 复制代码
Job Queue

任务状态:

text 复制代码
Pending
Running
Completed
Failed

Scheduler 开始寻找资源。例如:

text 复制代码
Node-A GPU不足

Node-B GPU不足

Node-C 满足条件

最终:

text 复制代码
任务分配到 Node-C

开始训练。

四、GPU Scheduler 核心职责

调度器主要解决四个问题:

text 复制代码
放哪里
什么时候放
放多少资源
如何保证公平

即:

text 复制代码
Placement
Allocation
Priority
Fairness

五、资源发现机制

Scheduler 首先要知道:

text 复制代码
集群有哪些资源

例如:

text 复制代码
GPU型号
GPU数量
CPU数量
内存大小
网络带宽

节点定期上报:

json 复制代码
{
  "node":"gpu-001",
  "gpu":8,
  "gpuType":"H100",
  "cpu":128
}

Scheduler 构建:

text 复制代码
Cluster View

集群视图。

六、资源匹配算法

假设用户申请:

text 复制代码
8 × H100

集群情况:

text 复制代码
NodeA 4 H100

NodeB 8 H100

NodeC 16 A100

调度器需要选择:

text 复制代码
NodeB

因为:

text 复制代码
满足需求
碎片最少

这就是:

text 复制代码
Best Fit

策略。

常见策略

1.First Fit

text 复制代码
找到就放

优点:

text 复制代码
速度快

缺点:

text 复制代码
碎片严重

2.Best Fit

text 复制代码
选择最接近需求的节点

优点:

text 复制代码
资源利用率高

缺点:

text 复制代码
调度开销大

3.Bin Packing

目标:

text 复制代码
尽可能塞满节点

例如:

text 复制代码
8GPU节点

任务A 2GPU
任务B 2GPU
任务C 4GPU

放一起,这样:

text 复制代码
空闲节点更多

方便后续大任务调度。

七、大模型训练中的 Gang Scheduling

这是 GPU 调度最核心的技术之一,训练任务经常要求:

text 复制代码
8 GPU
16 GPU
64 GPU
128 GPU

问题来了,如果:

text 复制代码
只找到63张GPU

怎么办?答案:

text 复制代码
不能启动

因为:

text 复制代码
分布式训练要求同时启动

这就是:

text 复制代码
Gang Scheduling

原理

普通任务:

text 复制代码
找到资源就运行

Gang Task:

text 复制代码
全部资源到位
↓
同时启动

例如:

text 复制代码
8 GPU Training

必须:

text 复制代码
GPU1
GPU2
GPU3
GPU4
GPU5
GPU6
GPU7
GPU8

全部 Ready,否则:

text 复制代码
继续等待

八、GPU 碎片化问题

这是所有 AI 公司都会遇到的问题。例如:

text 复制代码
NodeA 剩余 1 GPU

NodeB 剩余 2 GPU

NodeC 剩余 1 GPU

总共:

text 复制代码
4 GPU

看起来资源很多,但用户需要:

text 复制代码
4 GPU 连续资源

实际上无法调度。这就是:

text 复制代码
GPU Fragmentation

为什么越来越严重

因为:

text 复制代码
训练任务结束时间不同

导致:

text 复制代码
GPU空洞

越来越多,最终:

text 复制代码
资源利用率下降

九、GPU 共享技术

为了提升利用率,行业开始使用:

text 复制代码
MIG
vGPU
Time Slicing

NVIDIA MIG

把一张 GPU 切成多个实例。例如:

text 复制代码
1 H100
↓
7 个小GPU

适用于:

text 复制代码
推理任务
小模型训练

这样:

text 复制代码
资源利用率更高

十、推理调度架构

训练与推理完全不同,训练:

text 复制代码
长任务

推理:

text 复制代码
短任务

例如:

text 复制代码
请求到达
↓
模型推理
↓
返回结果

只有几百毫秒,因此调度目标变成:

text 复制代码
低延迟
高吞吐

推理调度流程

text 复制代码
Request

   │

   ▼

Load Balancer

   │

   ▼

Model Router

   │

   ▼

GPU Worker

其中:

text 复制代码
Model Router

最关键,负责:

text 复制代码
路由到哪个模型
路由到哪个GPU

十一、多租户调度

企业 GPU 集群通常不是一个团队使用,例如:

text 复制代码
推荐团队
搜索团队
大模型团队
数据团队

都在抢 GPU,因此需要:

text 复制代码
Quota

配额系统。例如:

yaml 复制代码
teamA: 40%

teamB: 30%

teamC: 30%

避免:

text 复制代码
一个团队占满所有GPU

十二、抢占式调度(Preemption)

当重要任务到来时。怎么办?例如:

text 复制代码
CEO要求训练紧急模型

但:

text 复制代码
GPU已经满了

此时 Scheduler 可以:

text 复制代码
暂停低优先级任务

释放 GPU。这就是:

text 复制代码
Preemption

工作流程

text 复制代码
高优任务到达

        ↓

发现资源不足

        ↓

选择低优任务

        ↓

保存Checkpoint

        ↓

回收GPU

        ↓

启动高优任务

十三、GPU 集群监控系统

没有监控:

text 复制代码
等于盲飞

通常需要监控:

text 复制代码
GPU利用率
显存占用
训练吞吐量
网络流量
故障率

典型指标:

text 复制代码
GPU Utilization

Memory Usage

Tokens/sec

Samples/sec

十四、AI时代的新调度挑战

过去:

text 复制代码
单模型训练

现在:

text 复制代码
MoE
RLHF
Agent
多模型协同

出现新的问题:

text 复制代码
GPU拓扑感知
RDMA调度
跨机房训练
异构GPU调度

Scheduler 不再只是:

text 复制代码
资源分配器

而是:

text 复制代码
AI Infrastructure Brain

十五、未来趋势:AI Native Scheduler

未来 GPU Scheduler 会越来越智能。

传统模式:

text 复制代码
规则驱动

未来:

text 复制代码
AI驱动

例如:

text 复制代码
预测任务完成时间

预测GPU需求

自动扩容

自动迁移

形成:

text 复制代码
Self-Driving Cluster

自治算力集群。

总结

很多人认为大模型时代最重要的是:

text 复制代码
模型
算法
数据

实际上当规模达到:

text 复制代码
100 GPU
1000 GPU
10000 GPU

以后,真正决定效率的往往是:

text 复制代码
GPU 调度系统

因为:

text 复制代码
模型决定能力上限

Scheduler决定资源利用率

从某种意义上说:

AI 时代的 Kubernetes,不是 Kubernetes 本身,而是面向 GPU 的新一代调度系统。

而未来所有 AI 基础设施的竞争,最终都会回到一个核心问题:

text 复制代码
如何让每一张 GPU 都创造最大价值。
相关推荐
Survivor0011 小时前
Codex Harness工程 Skills架构设计原理
ai·架构
@insist1231 小时前
系统架构设计师-嵌入式系统核心概念与关键机制
架构·系统架构·软考·系统架构设计师·软件水平考试
“码”力全开1 小时前
【架构深探】基于Docker与GB28181/RTSP的边缘计算AI视频管理平台:异构算力调度与源码交付实践
人工智能·docker·架构
一切皆是因缘际会1 小时前
LLM温度Temperature底层采样机理
人工智能·机器学习·ai·架构
沪漂阿龙1 小时前
LangChain 系列:Structured Output结构化输出与源码解析
java·人工智能·架构·langchain
happyprince1 小时前
01_verl-项目概览与架构总览
架构·wpf
happyprince2 小时前
05_verl-配置系统详解
人工智能·架构·强化学习
段一凡-华北理工大学2 小时前
LangChain框架在高炉炼铁智能化领域的应用~系列文章02:从Prompt开始,让大模型听懂高炉的“黑话“
大数据·人工智能·学习·架构·langchain·prompt·高炉炼铁
小短腿的代码世界2 小时前
Qt交易系统审计日志与合规追踪引擎:从零构建金融级不可篡改日志架构
qt·金融·架构