使用GPU-Docker-API管理GPU模型容器版本

前言

在之前的帖子中我用 Go 实现了一个简单的项目,它可以代替你创建 GPU 容器,Volume,以及方便地更新容器的 GPU 配置、Volume 的存储容量等(在不关闭 Docker 进程的情况下)。

如果你还不熟悉,可以查看Docker 二次开发 | NVIDIA Docker + Docker Client 调度 GPU 容器项目

项目一开始的名称叫 GPU-Docker-Demo,我想通过直接调用 Docker Client的方式来创建容器,并提供 HTTP 接口,更方便的使用 Docker。然后尝试如何实现更新一个已存在容器的 GPU 数量,已存在 Volume 的存储容量等,最终通过拷贝 Overlay2 下容器的 merged layer 到新创建的容器中来实现,这样要比将容器提交为镜像再启动快的多。

最初我想这个项目应该是面向熟悉 Golang 语言的开发者,仅仅只是为你提供一个思路,并不想写一个完整的项目。所以提供的接口大多都比较抽象,需要了解项目的原理后才能更好的使用。

后来发现有不少只会 Python 的小伙伴 star 了我的项目,并且给我提了一些 issues,他们往往不熟悉 Golang 语言,并且对构建项目、配置项目以及出错后的日志很陌生,并且对接口的使用也很迷茫,所以我更改了大部分代码,简化了操作。

比如你可以直接从 release 下载二进制文件然后直接运行,配置通过参数的形式传递;通过导入 json 到 apifox 或者直接通过我分享的在线网站来查看 api 的定义信息。

新的功能

通过和 iomgaa-ycz 讨论,我发现学习 AI 的研究生可能会有版本控制的需求,比如我先创建一个容器,调整一些参数,然后获取到最后的结果。如果结果不太理解,我可能需要再次调整一些参数,但是之前的容器我也不想删除,方便我再次启动这个容器用于对比。

之前的做法可能是,将旧容器提交为镜像,然后创建一个新容器,最后通过 docker cp 将代码拷贝进新容器,如果旧容器里安装了一些软件,例如 vim、python,那么只能在新容器里再安装一遍了,管理起来很繁琐。

所以我试着解决这个问题,并提供了一个回滚的接口,就像 K8s 的回滚到指定版本一样。同时提供了查询历史版本接口,更方便查看容器的创建信息(类似于 K8s 中关于资源描述的 Yaml)。

下面我为你简单的演示一下这个功能。

我们先通过 创建 ReplicaSet 接口生成了一个版本为 1 的 foo 容器并且使用了 3 张卡。(ReplicaSet只是一个抽象的概念,它并没有具体实现,只是代表了具有历史版本的、可回滚的容器而已。)

比如我们要在这个容器安装 Python3,然后写一些代码。

通过 GPU-Docker-API 创建或者更新后的容器,都会在环境变量 CONTAINER_VERSION 里保存当前版本号,方便使用。

python 复制代码
$ cat main.py 
import os  
print("CONTAINER_VERSION: ", os.environ['CONTAINER_VERSION'])  
$ python3 main.py 
CONTAINER_VERSION:  1

然后我们先在这个容器的基础上,直接复制一个容器出来,然后旧的容器停止。

所以我们调用 patch 接口更新它,只不过我们只想要复制,所以 Boyd 传递一个空即可。

可以看到 foo-2 容器被创建了。我们跳过实际使用它的步骤。

foo-1,foo-2 都是使用了 3 张 gpu,我们改变一下 gpu 数量,然后尝试回滚到最初的 foo-1 版本。

先调用获取 ReplicaSet 历史版本的接口,看看它都有哪些版本。

然后回滚到 foo-1 的版本,可以看到 foo-4 被创建了(这里规定了版本号是递增的)。在前面的操作中,foo-1,foo-2 是使用了 3 张卡的,foo-3 是使用了 1 张卡;并且 foo-1 里面还安装了 Python3,编写了 main.py

我们来验证一下。很酷😎,保存在非挂载目录的文件和安装的软件都在。我想这会让你炼丹的过程稍微轻松一点,不过浪费时间在提交镜像、拷贝数据上了。

shell 复制代码
$ docker exec -it foo-4 bash
$ ls -al | grep main.py
-rw-r--r--    1 root root    76 Jan 23 08:55 main.py
$ python3 main.py 
CONTAINER_VERSION:  4

项目地址

gpu-docker-api

更多的功能可以参考:github.com/mayooot/gpu...

写在最后

因为实现这些功能,代码数量会急剧增加,一个人维护也有点困难,所以可能会有一些 bug,欢迎你随时到 GitHub 上提交 issues。

如果对你有帮助,欢迎点一个 ⭐️,这对我很重要哦。

相关推荐
工业3D_大熊1 小时前
3D可视化引擎HOOPS Luminate场景图详解:形状的创建、销毁与管理
java·c++·3d·docker·c#·制造·数据可视化
szc17671 小时前
docker 相关命令
java·docker·jenkins
CP-DD1 小时前
Docker 容器化开发 应用
运维·docker·容器
Stark-C1 小时前
万物皆可Docker,在NAS上一键部署最新苹果MacOS 15系统
macos·docker·策略模式
微信-since811922 小时前
[ruby on rails] 安装docker
后端·docker·ruby on rails
吴半杯3 小时前
gateway漏洞(CVE-2022-22947)
docker·kubernetes·gateway
今天我刷leetcode了吗3 小时前
docker 配置同宿主机共同网段的IP 同时通过通网段的另一个电脑实现远程连接docker
tcp/ip·docker·电脑
lwprain4 小时前
常用docker应用部署,wordpress、mysql、tomcat、nginx、redis
mysql·docker·tomcat
Code_Artist6 小时前
使用Portainer来管理并编排Docker容器
docker·云原生·容器
mengao12346 小时前
centos 服务器 docker 使用代理
服务器·docker·centos