前几篇文章中,重点讲解了Linux Namespace、Cgroups、AUFS的核心原理,同样也是Docker的底层原理实现。目录如下:
有需要的小伙伴可以回顾一下。
核心原理讲完,接下来的内容就是如何构造容器、构造镜像了。首先,先从Docker run命令开始深入剖析。
深入剖析Docker Run命令
获取代码
git clone https://gitee.com/mjreams/docker.git
git checkout code3-1
本章即将开始真正踏上构造自己的容器的道路。我们会基于当前的操作系统创 建一个与宿主机隔离的容器环境,下面就开始吧。
Linux /proc文件介绍
Linux下的/proc文件系统是由内核提供的,它其实不是一个真正的文件系统,只包含了系统运行时的信息(比如系统内存、mount设备信息、一些硬件配直等),它只存在于内存中,而不占用外存空间。它以文件系统的形式,为访问内核数据的操作提供接口。实际上,很多系统工具都是简单地去读取这个文件系统的某个文件内容,比如lsmod,其实就是cat /proc/modules。
当遍历这个目录的时候,会发现很多数字,这些都是为每个进程创建的空间,数字就是它们的PID。
下面介绍几个比较重要的部分:
run命令实现
首先,实现一个简单的run命令,类似docker run -it [command] 。后续会继续添加network等功能。
目前代码目录结构如下:
-
• main.go 作为项目入口
-
• main_command.go 中包含了所有的 command
-
• run.go 则是 run 命令核心逻辑
-
• container 目录则是一些 container 的核心实现
再来看一下main.go
使用github.com/urfave/cli
命令行工具,提供了几个基本的命令。包括initCommand、runCommand。然后在app.Before内初始化一下log的配置。
再来看一下main_command.go中runCommand
的具体实现:
Action这里是run命令执行的真正函数:
-
- 判断参数是否包含command
-
- 获取用户制定的command
-
- 调用Run方法去启动容器
Run(createTty, cmdArray, resConf, containerName, volume, imageName, envSlice, network, portmapping)
再来深入看一下Run方法具体做了哪些事情:
NewParentProcess 启动一个新进程
这里是父进程,也就是当前进程执行的内容。
-
- 这里的/proc/se1f/exe调用中,/proc/self/ 指的是当前运行进程自己的环境,exec 其实就是自己调用了自己,使用这种方式对创建出来的进程进行初始化
-
- 后面的args是参数,其中init是传递给本进程的第一个参数,在本例中,其实就是会去调用initCommand去初始化进程的一些环境和资源
-
- 下面的clone参数就是去fork出来一个新进程,并且使用了namespace隔离新创建的进程和外部环境。
-
- 如果用户指定了-it参数,就需要把当前进程的输入输出导入到标准输入输出上
那么,init函数里面做了些什么呢 ?
RunContainerInitProcess 启动容器的init进程
-
- 这里的init函数是在容器内部执行的,也就是说,代码执行到这里后,容器所在的进程其实就已经创建出来了,这是本容器执行的第一个进程。
-
- 使用mount先去挂载proc文件系统,以便后面通过ps等系统命令去查看当前进程资源的情况。
这里 Mount 意思如下:
-
• MS_NOEXEC 在本文件系统 许运行其 程序。
-
• MS_NOSUID 在本系统中运行程序的时候, 允许 set-user-ID set-group-ID
-
• MS_NOD 这个参数是自 Linux 2.4 ,所有 mount 的系统都会默认设定的参数。
本函数最后的syscall.Exec是最为重要的一句黑魔法,正是这个系统调用实现了完成初始化动作并将用户进程运行起来的操作。
首先,使用 Docker 创建起来一个容器之后,会发现容器内的第一个程序,也就是 PID 为 1 的那个进程,是指定的前台进程。但是,我们知道容器创建之后,执行的第一个进程并不是用户的进程,而是 init 初始化的进程。这时候,如果通过 ps 命令查看就会发现,容器内第一个进程变成了自己的 init,这和预想的是不一样的。
有没有什么办法把自己的进程变成 PID 为 1 的进程呢?
这里 execve 系统调用就是用来做这件事情的。
syscall.Exec
这个方法,其实最终调用了 Kernel 的 int execve(const char *filename, char *const argv[], char *const envp[]);这个系统函数。
它的作用是执行当前 filename 对应的程序,它会覆盖当前进程的镜像、数据和堆栈等信息,包括 PID,这些都会被将要运行的进程覆盖掉。
也就是说,调用这个方法,将用户指定的进程运行起来,把最初的 init 进程给替换掉,这样当进入到容器内部的时候,就会发现容器内的第一个程序就是我们指定的进程了。
具体流程如下:
测试
root@mydocker:~/mydocker# go build .
root@mydocker:~/mydocker# ./mydocker run -it /bin/sh
{"level":"info","msg":"init come on","time":"2024-01-07T14:18:35+08:00"}
{"level":"info","msg":"command: /bin/sh","time":"2024-01-07T14:18+08:00"}
{"level":"info","msg":"command:/bin/sh","time":"2024-01-07T14:18:35+08:00"}
# ps -ef
UID PID PPID C STIME TTY TIME CMD
root 1 0 0 09:47 pts/1 00:00:00 /bin/sh
root 5 1 0 09:47 pts/1 00:00:00 ps -ef
在看一下ubuntu的
[root@docker ~]# docker run -it ubuntu /bin/sh
# ps -ef
UID PID PPID C STIME TTY TIME CMD
root 1 0 0 01:49 pts/0 00:00:00 /bin/sh
root 7 1 0 01:49 pts/0 00:00:00 ps -ef
几乎是一模一样。