基于 gitlab-runner 实现调度GPU的资源

本篇目录

    • [1. 客户需求](#1. 客户需求)
    • [2. 需求调研](#2. 需求调研)
    • [3. 实践](#3. 实践)
      • [3.1 方案一:环境变量的方式](#3.1 方案一:环境变量的方式)
      • [3.2 方案二:k8s 自身的spec注入机制](#3.2 方案二:k8s 自身的spec注入机制)
    • [4. 效果](#4. 效果)

该实践来自于客户的一个真实需求

1. 客户需求

客户的某些流水线需要使用GPU资源,但是对于GPU服务器而言,会有多张GPU显卡,而客户只需要将runner的资源调度在其中的一张或者多张显卡,而不是占用整个GPU服务器的显卡资源。

2. 需求调研

  • 通过查看runner的相关文档,对于runner使用GPU资源而言,本身runner是不需要做任何配置的,详见说明 [GPU]
    (https://docs.gitlab.com/runner/configuration/gpus.html)。
  • 关于GPU(主要针对的英伟达),可以通过 NVIDIA_VISIBLE_DEVICES 环境变量来控制,进行制定数量GPU显卡资源的调度。
  • 针对runner的执行器为 kubernetes 类型而言,可以通过spec的配置注入机制来实现将部分配置聚合在runner 拉起的pod中,从而实现资源的控制,该技术本身是基于k8s的原理来实现的。

3. 实践

3.1 方案一:环境变量的方式

gitlab runner的配置文件调整如下:

复制代码
  config: |
    [[runners]]
      environment = ["FF_USE_ADVANCED_POD_SPEC_CONFIGURATION=true","NVIDIA_VISIBLE_DEVICES=0"]

说明:

  • 对于多张显卡而言,总是从0..n,因此这里的 0 指的是第一张显卡,也就是说runner的作业拉起pod后,会占用第一张显卡。
  • 如果要使用多张显卡,可以参考NVIDIA_VISIBLE_DEVICES 的详细配置。

3.2 方案二:k8s 自身的spec注入机制

相比于方案一,方案二要更灵活一下,但是需要开启 FF_USE_ADVANCED_POD_SPEC_CONFIGURATION flag。具体的配置调整如下:

复制代码
config: |
    [[runners]]
      environment = ["FF_USE_ADVANCED_POD_SPEC_CONFIGURATION=true"]
      [runners.kubernetes]
        namespace = "{{.Release.Namespace}}"
        image = "alpine"
        pull_policy = ["if-not-present"]
        [runners.kubernetes.node_selector]
          "nvidia.com/gpu.present" = "true"
          [[runners.kubernetes.pod_spec]]
            name = "cpu limit"
            patch = '''
              containers:
              - name: build
                resources:
                  limits:
                    nvidia.com/gpu: 1
            '''
            patch_type = "strategic"

patch_type说明:

  • strategic:Kubernetes 的 战略合并 Patch,可以在不破坏原始 YAML 结构的前提下进行合并和修改(推荐)。
  • json:使用 JSON Patch 格式来修改资源。
  • merge:简单的合并 Patch。

4. 效果

调整前

调整后

相关推荐
1candobetter1 小时前
GitLab 项目创建与分支管理全流程
gitlab
林鸿群1 天前
Ubuntu 26.04 本地安装 GitLab CE 完整教程(非 Docker 方式)
linux·ubuntu·gitlab·私有部署·代码托管·ubuntu 26.04·omnibus
ascarl20102 天前
IDEA 一直弹 GitLab 登录,VS Code 却能正常 `git push`?问题排查记录
git·gitlab·intellij-idea
企鹅郁金香4 天前
Gitlab和Confluence和Svn的备份
svn·gitlab·confluence·gitlab备份·svn备份·confluence备份
barbyQAQ4 天前
GitLab CI/CD 基本用法指南
java·ci/cd·gitlab
云中飞鸿5 天前
git、svn;TortoiseGit、TortoiseSVN;gitlab、github、bitbucket、bamboo有什么关系?
git·svn·gitlab
007张三丰8 天前
掌握核心!Git最常用的15个命令行:从入门到实战详解
git·gitlab·github·git命令行·常用命令行
人间打气筒(Ada)9 天前
gitlab私有仓库搭建
运维·gitlab·项目实战·devops·代码部署实战·版本控制仓库
黑蛋同志9 天前
Rocky Linux 10 上搭建 社区版 GitLab CE
linux·运维·gitlab
gpio_0110 天前
自建gitlab服务器并用sakurafrp穿透
运维·服务器·gitlab