最近参加青训营学习了微服务的一些组件,觉着docker非常nice,同时想到实验室服务器是大家共用的,有时候难免会因为一些依赖版本不同而产生冲突。为了相互之间不影响,决定使用docker进行用户隔离,通过sshd
和docker
给每个用户分配一个docker虚拟容器 ,不同用户通过不同的端口进行连接。
1.下载镜像
下载docker Ubuntu镜像
shell
docker pull ubuntu:18.04
若是用于GPU训练则下载cuda版本:
shell
docker pull nvidia/cuda:10.0-cudnn7-devel
想要用其他版本可到docker hub中寻找。
使用docker images
可检查是否pull成功:
下载失败的请检查tag或者配置阿里镜像加速。
2.docker 容器实例创建
创建一个docker 容器,以增加里面的配置,使其后面能够通过ssh连入这个docker容器
shell
docker run -it nvidia/cuda:10.0-cudnn7-devel /bin/bash
# 使用Ubuntu的则用下面这条指令:
docker run -i -t ubuntu:18.04 /bin/bash
在容器实例里面执行下列指令:
shell
apt-get update
apt-get install openssh-server # 安装sshd
which sshd
创建权限分离目录:
shell
mkdir /var/run/sshd
设置密码,后续远程连接使用:
shell
passwd
修改ssh配置文件,设置为允许root远程登录:
shell
apt-get install vim #安装vim
vim /etc/ssh/sshd_config
将PermitRootLogin prohibie-password
修改为:PermitRootLogin yes
即可。若没有则加上PermitRootLogin yes
shell
apt-get install inetutils-ping #安装网络工具,后续ping网络(可不装)
最后退出:
shell
exit
3.将容器打包成镜像
docker ps -a
找到刚刚新建但退出的容器
通过container id将容器打包成镜像:
shell
docker commit 76edced49b4a cuda10:1.0
docker images
可以看到刚刚打包的镜像
4.启动容器实例服务
启动docker容器实例:
shell
docker run -d -p 22 --name pshawn-ssh --gpus all cuda10:1.0 /usr/sbin/sshd -D
也可使用下面这个功能更全面的命令:
shell
docker run -d -p 40901:22 -v /mnt/docker-user-ssh/pshawn-data:/mnt --privileged=true --name pshawn-ssh --restart=always --gpus all cuda10:1.0 /usr/sbin/sshd -D
-v /mnt/docker-user-ssh/pshawn-data:/mnt表示将主机的目录/mnt/docker-user-ssh/pshawn-data和虚拟容器中的目录/mnt挂载,这样就能保存数据。
若是使用--gpus报错,需要在主机先安装一个英伟达的容器运行时:
shell
docker: Error response from daemon: could not select device driver "" with capabilities: [[gpu]].
ERRO[0000] error waiting for container:
解决方法:
shell
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker
参考:
Docker 使用GPU 错误之Error could not select device driver "" with capabilities: [[gpu]]