【Linux】Linux进程的概念

一、冯诺依曼体系结构

我们常见的计算机，比如笔记本，我们不常见的计算机，比如服务器，大部分都遵循冯诺依曼体系结构。

截至目前，我们所认识的计算机，都是有一个一个独立的硬件组成：

输入单元：包括键盘，鼠标，扫描仪，数位板等
中央处理器（CPU）：含有运算器和控制器等
输出单元：显示器，打印机等
存储区是内存，掉电易失

设备是连接的，这不是目的，而是手段。连接的设备目的是设备之间的数据流动，本质上是设备之间进行数据的来回拷贝，拷贝的整体速度是决定计算机效率的重要指标。

关于冯诺依曼，必须强调几点：

这里的存储器指的是内存
不考虑缓存情况，这里的CPU能且只能对内存进行读写，不能访问外设（输入或者输出设备）
外设（输入或者输出设备）要输入或者输出数据，也只能写入内存或者从内存中读取
因此，所有设备都只能直接和内存打交道

为什么在体系结构中需要存在内存呢？？

因为木桶原理，在上面，我们得知设备之间是为了进行数据流动而连接起来，在计算机中CPU的速度非常快，而输入输出设备很慢，所以为了提升整体的数据传输效率，需要在输入输出设备和CPU之间添加设备，保证整体的传输速率提高。

对于冯诺依曼的理解，不能停留在概念上，要深入到对软件数据流的理解上，针对内存的认识，我们来回答两个问题：

为什么程序要先加载到内存中？

程序在运行的时候，必须把程序先加载到内存中。在数据层面上，CPU与内存打交道，磁盘与内存打交道。

二、操作系统

2.1 操作系统的基本概念

任何计算机系统都包含一个基本的程序集合，称为操作系统（OS）。笼统的理解，操作系统包括：

内核（进程管理，内存管理，文件管理，驱动管理）
其他程序（例如函数库，shell程序等）

2.2 设计OS的目的

与硬件交互，管理所有的软硬件资源
为用户程序（应用程序）提供一个良好的执行环境

2.3 如何理解"管理"

我们知道操作系统是第一个被加载的软件，他也是一个进程软硬件资源管理的软件。现在，我们来理解一下什么是管理？？

管理有两个步骤：管理者就是做决策的，被管理者就是做执行的

做决策

做执行

我们以学校生活为例，校长就是管理者，辅导员就是保证管理决策落地的，学生就是被管理者。

管理者和被管理者，并不需要见面。

管理一个人的本质不在于和你见面，管理的本质不在于对人做管理，而在于对人的信息（数据）做管理。管理者的核心任务是根据数据做决策。

管理者和被管理者没有见过面，是通过辅导员拿到信息的。

管理者在面对大量的被管理者时，数据量必然非常大，我们可以将对人的管理转换为对数据的管理。

我们可以将学生的属性抽离出来放在一个类中，然后使用一些容器来进行管理这些类。因此，校长对于学生的管理变为了对链表的增删查改。管理就是一个计算机建模的过程！！！

先描述在组织：

将具体问题进行计算机级别的建模的过程，转换成为计算机能够认识的问题。第一件事情就是先描述，第二件事情就是通过一些容器（数据结构）进行组织。将对数据的管理场景转换为对特定数据结构的增删查改。

2.4 为什么要有操作系统

通过对下管理好软硬件资源的手段，对上提供一个良好（稳定，高效，安全）的运行环境。

2.5 总结

计算机管理硬件：

描述起来，用struct 结构体
组织起来，用链表或者其他高效的数据结构

三、系统调用和库函数概念

在开发的角度上，操作系统对外会表现出一个整体，但是会暴露自己的部分接口，供上层开发使用，这个部分由操作系统提供的接口，就叫做系统调用。
系统调用在使用上，功能比较基础，对用户的要求相对也比较高，所以，有心的开发者可以对部分的系统调用进程适度的封装，从而形成了库，有了库，就很有利于更上层用户或者开发者进行二次开发。

四、进程

4.1 基本概念

课本概念：程序的一个执行实例，正在执行的程序等
内核观点：担当分配系统资源（CPU时间，内存）的实体

我们可以同时启动多个进程，这就要求我们一定要将多个 .exe 文件加载到内存中，操作系统要管理多个加载到内存中的程序，所以，操作系统要先描述，在组织。

cpp 复制代码

struct PCB
{
    // 状态
    // 优先级
    // 内存指针字段
    // 标识符
    // ...包含进程几乎所有的属性字段
    struct PCB* next;
}

在操作系统中，一个加载到内存的程序都会有一个结构体来进行描述其属性，操作系统可以通过这个结构体来进行管理加载到内存中的程序。进程 = 内核PCB对象 + 代码 + 数据。未来，所有对进程的控制和操作，都只和进程的PCB有关，和进程的可执行文件无关。如果愿意的话，可以将PCB放入到任何的数据结构中。

4.2 描述进程------PCB

进程信息被放在一个叫做进程控制块的数据结构中，可以理解为进程属性的集合。
课本上称之为PCB（process control block），linux操作系统下的PCB是：task_struct

4.2.1 task_struct-PCB的一种

在Linux中描述进程的结构体叫做task_struct
task_struct 是 Linux 内核中的一种数据结构，他会被装载到RAM（内存）里并且包含着进程的信息。

4.2.2 task_struct 内容分类

标识符：描述本进程的唯一标识符，用来区别其他进程
状态：任务状态，退出代码，退出信号等
优先级：相对于其他进程的优先级
程序计数器：程序中即将被执行的下一条指令的地址
内存指针：包括程序代码和进程相关数据的指针，还有和其他进程共享的内存块的指针
上下文数据：进程执行时处理器的寄存器中的数据
I/O状态信息：包括显示的I/O请求，分配给进程的I/O设备和被进程使用的文件列表
记账信息：可能包括处理器的时间总和，使用的时钟总和，时间限制，记录账号等
其他信息

4.3 组织进程

可以在内核源代码中找到他，所有运行在系统中的进程都以task_struct链表的形式存在内核中。

4.4 查看进程

进程的信息可以通过/proc系统文件夹来查看：

4.5 调用系统调用获取进程标识符

进程id（PID）
父进程id（PPID）

cpp 复制代码

#include <stdio.h>
#include <sys/types.h>
#include <unistd.h>
int main()
{
     printf("pid: %d\n", getpid());
     printf("ppid: %d\n", getppid());
     return 0;
}

4.6 通过系统调用创建进程------fork初始

fork 函数是 Unix 和类 Unix 操作系统中用于创建新进程的系统调用。它的基本作用是复制当前进程，生成一个新的子进程。以下是关于 fork 函数的一些关键点：

返回值：
- 在父进程中，fork 返回子进程的进程ID（PID）。
- 在子进程中，fork 返回 0。
- 如果调用失败，返回 -1，并且没有创建新进程。
进程关系：
- 调用 fork 后，父进程和子进程是并发运行的，并且它们拥有独立的地址空间。
资源复制：
- 在调用 fork 时，父进程的资源（如文件描述符、内存等）会被复制到子进程，但两者之间的内存是独立的（使用写时复制机制）。
进程控制：
- 父进程可以使用 wait 或 waitpid 函数等待子进程结束，并获取其退出状态。

fork 是 Unix/Linux 系统编程中非常重要的一个函数，广泛用于多进程编程和并发处理。