Linux下的进程解析（level 2）

[fork ：创建子进程](#fork ：创建子进程)

引言

在当今的信息技术时代，操作系统作为计算机系统的核心组件，承担着资源管理、任务调度等重要职责。Linux作为一种开源、高性能的操作系统，受到了广大开发者和企业的青睐。深入了解Linux下的进程机制，对于我们更好地掌握系统运行原理、优化系统性能具有重要意义。接下来，让我们进一步探讨Linux下的进程解析，揭开进程管理的神秘面纱**。本文将着重介绍：pid与fork两个知识点，来深入解析进程。**

pid解析

进程id（PID）
父进程id（PPID）
pid与ppid在一个OS中一定是不重复的，这是每个进程的"身份证"

/proc

这是根目录下的一个内存级的文件夹。关掉linux之后，这个文件夹就不存在了。这个文件夹内部存储着进程的各个信息。

进程一般指：加载到内存的一个程序称作进程，因此我们写这样一个代码来模拟进程的执行。

通过ls这个目录，发现内部存在大量的数字命名的文件夹

这个文件夹的命名就是用pid命名的。

这就是内部的内容（查看家目录外的目录需要sudo职权）

以pid命名的目录文件内部包含什么内容？

在Linux操作系统中，每个进程都有一个唯一的进程标识符（PID），并且系统会在/proc文件系统中为每个运行中的进程创建一个以PID命名的目录。这些目录包含了关于进程的详细信息，以下是一些常见的文件和它们的内容：

cmdline - 包含了启动进程时使用的完整命令行字符串。
cwd - 一个指向进程当前工作目录的符号链接。
environ - 包含了进程的环境变量。
exe - 一个指向进程的可执行文件的符号链接。
fd - 包含了进程打开的文件描述符的目录。每个文件描述符都映射到一个实际的文件或设备。
maps - 显示了进程的内存映射，包括内存区域、访问权限、偏移量、设备信息和文件路径（如果有的话）。
mem - 包含了进程的内存内容。通常，只有具有特权的用户才能访问这个文件。
mounts - 包含了进程的挂载点信息。
net - 包含了进程的网络相关的统计信息，如TCP套接字等。
stat - 包含了进程的状态信息，如PID、父进程PID、用户ID、组ID、开始时间、CPU使用时间等。
statm - 包含了进程使用的内存状态信息，如虚拟内存大小、Resident Set Size（RSS）等。
status - 包含了进程的详细信息，如名称、状态、父进程ID、用户ID、组ID等。
task - 包含了属于该进程的所有线程（或任务）的子目录。

这些文件提供了对进程内部状态的深入洞察，可以用于调试、性能分析和其他系统管理任务。需要注意的是，/proc文件系统是一个虚拟文件系统，它并不占用实际的磁盘空间，而是由内核在运行时动态生成。

在这些内容中，我们着重看两个文件:cwd exe

先将写的t1程序运行

ps axj 可以查看所有进程

&&表示执行两个独立的指令（也可以；）

现象分析：

1.为什么我们过滤t1进程，会出现两个进程信息呢？

这是因为grep本身就是一个程序，所以grep的进程信息也会出现。

2.这里的PID就是每个进程的身份信息，会出现在/proc文件中。我们可以打开它查看进程信息。

但是进程结束之后，将不会继续存在

我们将程序修改为死循环之后。

注：我们可以在底行模式查看手册 !man 3 sleep

再次运行程序，发现pid发生变化

查看这个pid

发现内部存在两个文件cwd（correct working directory）、exe（当前可执行程序的目录信息）

这些信息也解释了为什么我们touch一个文件，默认的路径是当前工作路径。

杀进程

kill -9 pid可以杀掉一个进程

系统调用

OS通过pcb来控制进程的运行，在linux下具体就是task_struct这个结构去控制的

ps可以遍历这个链表。我们都知道linux内核禁止访问，只能通过系统调用去访问对应的信息，因此访问pid与ppid这些信息只能通过接口去访问。

**getpid 、 getppid（**ppid：parent 父进程的pid）

父进程编号（ppid）不变：

bash本身是一个进程，负责解释命令行中的内容

命令行中的所有指令都是bash的子进程

bash只负责命令行的解释。进程出问题都只会影响bash的子进程

因此父进程ppid一直不变

linux下开发的c/cpp，如果调用了linux的系统调用接口，那么windows下不能直接运行

fork ：创建子进程

返回值：给子进程返回0，给父进程返回子进程的pid

/return val调出返回值

代码：

现象：

发现程序并没有进入死循环，而是不断重复两个死循环的内容，这是为什么呢？

父进程的ppid就是bash（可见bash内部一定有fork机制）

子进程的ppid就是父进程

执行流分析

fork：分叉，将代码一分为二

它会产生两个进程，一个进程去执行第一个循环，另一个进程去执行第二个循环。两个进程分开跑。

问题：

1.为什么fork要给子进程返回0，给父进程返回子进程的pid？

2.一个函数如何做到返回两次的，如何理解？

3.一个变量为什么有不同的内容，本质是什么？

解析：

返回不同的返回值，是为区分不同的执行流、执行不同的代码块。一般而言，fork语句之后的代码共享。

进程 = 内核数据结构 + data + 代码

这个pcb可以指向data + 代码

那子进程该执行怎么样的代码呢？

已知，子进程与父进程的代码在fork之后是共享的。

为什么需要创建子进程呢?毫无疑问，对于不同的进程，我们存在不同的需求，因此得想办法让父子进程执行不同的代码块。这使得fork让父子存在不同的返回值。

如何做到的？

已知，进程具有独立性，父子进程并不会相互影响。

理解：QQ崩了不影响微信的使用！

进程的几大性质：

动态性：进程的动态性表现在进程的创建、执行和消亡是随时间变化的。进程的状态可以在运行、就绪、阻塞等状态之间转换。
并发性：多个进程可以在同一时间段内同时执行，这体现了操作系统的并发性。并发性是提高计算机系统资源利用率的关键特性。
异步性：每个进程按照自己的节奏独立运行，不受其他进程执行速度的影响。进程的异步性要求操作系统提供同步机制来协调进程间的操作。
结构性：进程通常由代码段、数据段、堆栈段等组成，这些段构成了进程的内存映像，体现了进程的结构性。
独立性：每个进程都有自己的地址空间、执行状态和系统资源，如文件描述符、信号处理等，进程之间不相互干扰。
交互性：进程之间可以通过进程间通信（IPC）机制进行数据交换和同步操作，如管道、消息队列、共享内存、信号量等。
可控性：操作系统可以控制进程的执行，包括启动、暂停、恢复和终止进程。进程调度器负责分配CPU时间给各个进程。
可见性：进程的创建、状态变化和资源使用情况可以通过系统提供的工具（如ps、top等）被用户或系统管理员观察到。

fork是一个函数，在函数的内部完成了创建子进程的工作。得到了子进程的PCB，父子进程都具有独立的PCB，因此互不影响。

可见，在return语句之前，函数就完成了子进程的创建。而子进程创建好了之后，后面的代码父子进程共享，也就是说return是父子进程共享的。

因此父进程可以得到自己的return，子进程也可以得到自己的return。

为什么返回值不同呢？---- 问题三：一个变量存在不同的内容

这是因为进程的写时拷贝！

内存划分：（内存中的代码和数据的辨析）

内存主要有四部分构成：

栈、堆、代码段（常量区）、数据段（静态区）

栈（Stack）：用于存储临时变量、函数参数、返回地址等。这些数据通常是局部于函数调用的。

堆（Heap）：用于动态分配内存，通常用于存储全局变量和动态分配的数据结构。

数据段（Data Segment）：用于存储全局和静态变量，这些变量在程序启动时分配，并在程序运行期间持续存在。

代码段（Code Segment）：包含程序的指令，通常是不变的。

当代码加载到内存中时，一般存储在代码段。而数据则是存储在其他三个区域

我们都知道，代码存储在代码段，是禁止修改的，那父子进程指向相同的代码但是却有不同的数据，这是因为数据不存储在代码段，数据是可以修改的。

共享代码并不影响独立性，因为代码是只读的，不允许修改。但是数据不一样！

因此子进程的pcb不能执行父进程的数据，而是得额外开辟自己的区域存储数据。

****子进程有自己单独的数据。虽然代码是一样的。但是id这个变量接收的数据是不一样的。所以cpu在计算时，通过公共的代码，访问不同的数据

这也可以解释进程的独立性：数据上的割裂导致进程在执行时，不会相互影响。

但是！直接给子进程开辟一份数据所占用的内存往往是不必要的。因为可能子进程和父进程访问的数据内容一致。这时候将会访问同一块内存当中的数据。

因此，如果子进程不做数据的修改，可以与父进程访问相同的数据，但是一旦子进程发生数据的修改，那么就要做拦截。只有当子进程想修改数据时，做拦截

只有对父进程的数据做修改，才会额外开辟一块内容，给子进程存放数据。让子进程去修改这部分数据。

这种技术称作：子进程在数据层面的写时拷贝

因此上述代码在return写入时，这就是对数据做了修改。因此在内存给子进程额外开辟了空间，让父子进程得到不同的返回值。

这也是为什么bash作为父进程，子进程出错不影响bash的原因。（数据的独立性）

父子进程谁先运行

这不是人为决定的，而是由调度器决定的。

调度器：选择一个进程放在cpu去运行

调度器：只有一块cpu，各个进程对于cpu是竞争关系，调度器尽量一碗水端平（运行时间平衡、不偏不漏）