Linux的进程概念

1、冯诺依曼体系结构

[2、操作系统(Operating System)](#2、操作系统(Operating System))

[2.1 基本概念](#2.1 基本概念)

[2.2 目的](#2.2 目的)

3、Linux的进程

[3.1 基本概念](#3.1 基本概念)

[3.1.1 PCB](#3.1.1 PCB)

[3.1.2 struct task_struct](#3.1.2 struct task_struct)

[3.1.3 进程的定义](#3.1.3 进程的定义)

[3.2 基本操作](#3.2 基本操作)

[3.2.1 查看进程](#3.2.1 查看进程)

[3.2.2 初识fork](#3.2.2 初识fork)

[3.3 进程状态](#3.3 进程状态)

[3.3.1 操作系统的进程状态](#3.3.1 操作系统的进程状态)

[3.3.2 Linux的进程状态](#3.3.2 Linux的进程状态)

[3.4 进程优先级](#3.4 进程优先级)

[3.4.1 基本概念](#3.4.1 基本概念)

[3.4.2 PRI&&NI](#3.4.2 PRI&&NI)

[3.4.3 竞争&&独立&&并行&&并发](#3.4.3 竞争&&独立&&并行&&并发)

[3.5 进程切换](#3.5 进程切换)

[3.6 Linux2.6内核进程O(1)调度队列](#3.6 Linux2.6内核进程O(1)调度队列)

4、Linux的环境变量

[4.1 基本概念](#4.1 基本概念)

[4.2 常见的环境变量](#4.2 常见的环境变量)

[4.3 环境变量的相关命令](#4.3 环境变量的相关命令)

[4.3.1 查看环境变量](#4.3.1 查看环境变量)

[4.3.2 修改环境变量](#4.3.2 修改环境变量)

[4.3.3 删除环境变量](#4.3.3 删除环境变量)

[4.4 环境变量的特点](#4.4 环境变量的特点)

5、Linux的进程虚拟地址空间

[5.1 程序地址空间](#5.1 程序地址空间)

[5.2 问题抛出](#5.2 问题抛出)

[5.3 进程虚拟地址空间和分页机制](#5.3 进程虚拟地址空间和分页机制)

[5.4 虚拟地址空间和分页机制的作用](#5.4 虚拟地址空间和分页机制的作用)

[5.5 拓展](#5.5 拓展)

1、冯诺依曼体系结构

输入设备：键盘，鼠标，网卡，磁盘等。
输入设备：显示器，网卡，磁盘等。
存储器 ：即内存。
CPU：简单来说，是中央处理器(运算器+控制器)。

注意：

因为输入输出设备的传输效率低，但是，让输入输出的设备的传输效率变高，成本太高，所以出现内存，即效率与成本之间的平衡，才普及了电脑。
程序的运行需要 CPU，而CPU****只能访问内存 ，所以程序必须加载到内存中。
数据流动的本质 ：多台冯诺依曼体系结构的交互。

2、操作系统(Operating System)

2.1 基本概念

操作系统包括：

内核（进程管理，内存管理，文件管理，驱动管理）
其他程序（例如函数库，shell程序等等）

2.2 目的

操作系统，是一款进行 软硬件 管理的软件。管理：先描述(类)，再组织(数据结构)。

sysrem call(系统调用 )，驱动程序，都是为了屏蔽底层细节，外部实现统一。安全且方便。

系统调用封装内核 → 对应用程序统一。
驱动程序封装硬件 → 对操作系统统一。

3、Linux的进程

3.1 基本概念

3.1.1 PCB

PCB(Process Control Block)，进程控制块 ，一种类型，Linux中的PCB为：struct task_struct。

3.1.2 struct task_struct

内容分类(后续会详细介绍)

标识符(PID)：描述本进程的唯一标识符，用于区分其他进程。
状态：任务状态，包括退出代码、退出信号等。
优先级：相对于其他进程的优先级。
程序计数器：程序中即将被执行的下一条指令的地址。
内存指针：包括程序代码和进程相关数据的指针，以及与其他进程共享的内存块指针。
上下文数据：进程执行时处理器的寄存器中的数据（例如：CPU 寄存器状态，需附图说明）。
I/O 状态信息：包括未完成的 I/O 请求、分配给进程的 I/O 设备，以及进程使用的文件列表。
记账信息：可能包括处理器占用时间、时钟周期总和、时间限制、计账号等。
其他信息：与进程相关的其他数据。

在 Linux 内核中，所有进程均通过 struct task_struct 结构体描述，并以双向链表 的形式(即队列)组织和管理。

3.1.3 进程的定义

进程 = 内核数据结构对象(PCB)+代码和数据

对进程的管理 ，就是对数据结构的增删改查。

3.2 基本操作

3.2.1 查看进程

通过 /proc 文件系统查看进程信息

/proc 是一个虚拟文件系统，提供内核和进程信息的实时访问。
每个进程的信息 存储在 /proc/[PID]/ 目录下，例如：

bash 复制代码

ls /proc/1/    # 查看 PID=1 的进程信息（通常是 init/systemd）

top：动态查看进程状态（CPU、内存占用等）

bash 复制代码

top  # 默认动态显示所有进程（按 CPU 占用排序）
top -p PID1,PID2,PID3  # 只监控指定 PID 的进程
top -u username  # 只显示某用户的进程

交互命令（在 top 运行时使用）

k → 结束指定 PID 的进程（输入 PID 后回车）。
M → 按内存占用排序。
P → 按 CPU 占用排序（默认）。
q → 退出 top。

ps：静态查看进程列表

bash 复制代码

ps aux  # 适用于查看所有进程的资源占用,进程状态等
ps -l PID # 适用于查看进程的父子关系,进程优先级等

注意：

可以配合grep进行搜索。
;和&&可以同时执行多条命令。
命令本身也是进程。

通过系统调用，获取进程标识符（PID & PPID）

getpid()：获取当前进程的 PID。
getppid()：获取当前进程的父进程 PPID。

如：

bash 复制代码

#include <stdio.h>
#include <unistd.h>

int main() {
    printf("PID: %d\n", getpid());   // 当前进程 ID
    printf("PPID: %d\n", getppid()); // 父进程 ID
    return 0;
}

3.2.2 初识fork

通过fork(系统调用)，创建子进程。

bash 复制代码

#include <stdio.h>
#include <sys/types.h>
#include <unistd.h>
int main()
{
    int ret = fork();
    printf("hello proc : %d!, ret: %d\n", getpid(), ret);
    sleep(1);
    return 0;
}

两个返回值，对父进程返回子进程的PID，对子进程返回0。因为父:子 = 1:N，父进程需要区分子进程，而子进程能通过PPID找到父进程。所以可以if ，让父子进程执行不同的语句。
fork() 创建子进程后，父子进程从 fork() 返回处继续执行 。注意：子进程不会执行fork()之前的代码。
当父子进程尝试修改数据 ，会发生写时拷贝 ，重新拷贝一份数据。所以父子进程独立运行。

3.3 进程状态

3.3.1 操作系统的进程状态

以上可以分为三类：

运行：PCB对象在调度队列中，正在运行(运行 )或准备运行(创建+就绪)。
阻塞：等待某种设备或资源就绪，PCB对象进入设备队列或资源队列。
挂起：内存不足 ，将进程的代码和数据放到磁盘中，进程是运行状态就是就绪挂起，进程是阻塞状态就是阻塞挂起。

注意：

一个CPU，一个调度队列
PCB对象 ，可以同时在不同的数据结构中，即可以在不同的队列中。

进程的状态 ，就是PCB对象在不同队列之间的流动 ，本质是数据结构的增删改查。

3.3.2 Linux的进程状态

bash 复制代码

/*
 * The task state array is a "bitmap" of reasons to sleep.
 * "Running" is 0, other states can be combined via bit tests.
 */
static const char *const task_state_array[] = {
    "R (running)",      /* 0  - 运行中或就绪       */
    "S (sleeping)",     /* 1  - 可中断睡眠（等待事件）*/
    "D (disk sleep)",   /* 2  - 不可中断睡眠（通常等待I/O）*/
    "T (stopped)",      /* 4  - 被信号暂停（如SIGSTOP）*/
    "t (tracing stop)", /* 8  - 被调试器跟踪暂停    */
    "X (dead)",         /* 16 - 完全终止（不会出现在任务列表）*/
    "Z (zombie)",       /* 32 - 僵尸进程（已终止但未回收）*/
};

R：运行中 或就绪(进程一创建，就进入就绪状态)。
S：可中断休眠(浅睡眠，一种阻塞)，能被操作系统杀死。
D：不可中断休眠(深睡眠，一种阻塞)，不能被操作系统杀死。
T：暂停，如：Ctrl+z。
t：暂停，如：debug的断点。
X：死亡，进程结束。
Z：僵尸，子进程退出 ，父进程需要获取子进程退出前的信息 (即子进程PCB对象里面的信息，其指向的代码和数据已被释放)，并释放子进程的PCB对象 ，如果父进程没有获取子进程退出前的信息 ，那么子进程 被称为"僵尸进程 "，其PCB对象将会一直存在 ，造成内存泄漏。如果父进程先结束 ，其子进程 称为"孤儿进程 "，会被1号进程 "领养"，不会成为"僵尸进程"。

注意：

阻塞是进程的 正常状态 （因等待资源主动暂停），而饥饿是 异常现象 （可能是一直阻塞，或进程可能无需等待资源，但因调度问题无法运行等）

3.4 进程优先级

3.4.1 基本概念

进程得到CPU资源 的先后顺序。

注意：

优先级 是一种数字，值越低，优先级越高。
优先级 ，能得到某种资源 (只是先后问题 )，权限，能否得到某种资源。
Linux，基于时间片的分时操作系统，要考虑公平性，所以优先级变化不大。

3.4.2 PRI&&NI

PRI：进程的优先级，默认80。
NI：nice值，进程优先级的修正数据，默认0。范围是**[-20,19]**。

注意：

进程真实的优先级****PRI = 80 + NI。所以优先级的范围是**[60,99]**。保证公平性。
NI 的存在 是为了在 灵活性 （用户态调整）和 稳定性（内核控制）之间取得平衡。

3.4.3 竞争&&独立&&并行&&并发

竞争：系统中进程数量远多于 CPU 资源（如单核 CPU 只能同时运行 1 个进程），因此进程之间需要竞争 CPU 时间片、内存、I/O 等资源。通过 优先级（Priority） 或 调度算法 （如时间片轮转）来合理分配资源，确保高优先级或关键任务能优先执行。
独立：每个进程拥有独立的地址空间、文件描述符、寄存器状态等资源，一个进程崩溃不会直接影响其他进程。
并行：多个进程 在 多个 CPU/核心上真正同时运行（物理层面的同时执行）。
并发：多个进程 在 单个 CPU 上通过快速切换（时间片轮转） 模拟"同时运行"的效果（逻辑层面的交替执行）。

3.5 进程切换

CPU上下文切换（Context Switch） ，实际上是任务切换 ，或CPU寄存器的切换。

流程：

保存现场 ：

当多任务操作系统决定切换到另一个任务时，首先将当前运行任务的CPU寄存器状态 完整保存到该任务的私有堆栈中。
恢复现场 ：

从待运行任务的堆栈中加载其之前保存的寄存器状态到CPU。
切换执行 ：

CPU开始执行新任务的指令流。

注意：

进程在一个时间片内占用CPU，不会一直占用。
进程切换 的本质：保存和恢复进程硬件上下文的数据(即CPU寄存器的状态)。

3.6 Linux2.6内核进程O(1)调度队列

对于active队列，先看nr_active，有没有进程，再通过bitmap[5]，按照优先级，快速定位队列，最后挑队首的进程，执行。
进程执行完一个时间片，进入expired队列(防止高优先级进程执行完一个时间片，又插队)。当active队列为空时，swap(&active,&expired)，交换两个指针，继续调度active队列。
新来一个进程，如果放到expired队列，就是就绪状态，如果放到active队列，也是就绪状态，但是"插队"了。
如果active中的进程，更改NI(nice值)，即更改优先级，因为麻烦，所以执行完一个时间片后，进入过期队列时，再更新优先级。

4、Linux的环境变量

4.1 基本概念

环境变量 是操作系统中用于指定运行环境参数的键值对(KEY=VALUE)。

KEY是环境变量的名字 ，VALUE是环境变量的内容。

4.2 常见的环境变量

4.3 环境变量的相关命令

4.3.1 查看环境变量

命令行：

env：显示当前进程 所有的环境变量。
echo $**环境变量名字 ：显示环境变量的内容**。
set：显示当前进程 所有的变量。如：直接i=10或i，定义本地变量i。

系统调用：

int main(int argc,char* argv[ ],char* env[ ]){ return 0;}，argv是命令行输入的命令字符串数组 (以空格为分隔符，将命令分成若干个字符串，数组以NULL结尾)，argc是argv数组元素的个数 ，env是该进程环境变量的字符串数组(环境变量放在字符串里，数组以NULL结尾)。
getenv()，在当前进程 ，根据环境变量的名字 ，获取环境变量的内容。
全局变量 ****environ(环境变量字符串数组，数组以NULL结尾)，必须先extern char** environ;声明，再使用。

4.3.2 修改环境变量

**环境变量名= $环境变量名:内容**，**给环境变量加内容**。如：PATH=$ PATH:/home/Lzc/test。
export 变量名="值"，新增环境变量。

注意：

以上关闭终端，重新登录，就会失效。想要永久生效，就要更改配置文件(~/.bashrc或~/.bash_profile)，因为bash每次都是拷贝配置文件的内容。

4.3.3 删除环境变量

unset 变量名：清除变量，本地变量和环境变量都可以。

4.4 环境变量的特点

新创建的子进程会继承父进程的环境变量 (全局性)。进程相互独立，所以环境变量也独立，互不影响。
本地变量不会被新创建的子进程继承。

5、Linux的进程虚拟地址空间

5.1 程序地址空间

以32位机器为例：

5.2 问题抛出

bash 复制代码

#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>

int g_val = 0;  // 全局变量，初始化为0

int main() {
    pid_t id = fork();  // 创建子进程
    
    if (id < 0) {       // fork失败
        perror("fork");
        return 0;
    }
    else if (id == 0) { // 子进程分支
        g_val = 100;    // 子进程修改全局变量
        printf("child[%d]: %d : %p\n", getpid(), g_val, &g_val);
    } 
    else {              // 父进程分支
        sleep(3);       // 父进程休眠3秒，确保子进程先执行
        printf("parent[%d]: %d : %p\n", getpid(), g_val, &g_val);
    }
    
    sleep(1);           // 防止父进程或子进程提前终止
    return 0;
}

为什么地址一样，内容却不一样？

说明：

该地址绝对不是物理地址！
在Linux系统下，这种地址称为**虚拟地址**。
我们用C/C++语言看到的地址都是虚拟地址，物理地址对用户完全不可见，由操作系统统一管理。

5.3 进程虚拟地址空间和分页机制

所以，程序地址空间，准确来说是，进程虚拟地址空间。

首先，一个进程，一个虚拟地址空间。

bash 复制代码

struct task_struct {
    /*...*/
    struct mm_struct *mm;        // 指向进程用户空间虚拟地址空间描述符
                                // - 对普通用户进程：指向其虚拟地址空间的用户空间部分
                                // - 对内核线程：NULL（因内核线程无独立用户空间）
    
    struct mm_struct *active_mm; // 内核线程使用的替代mm字段
                                // - 内核线程的mm为NULL时，可借用其他进程的地址空间
                                // - 所有进程的内核空间映射相同，故内核线程可复用
    /*...*/
};

struct mm_struct {
    /*...*/
    struct vm_area_struct *mmap;    // 虚拟内存区域(VMA)链表头
    struct rb_root mm_rb;           // VMA红黑树根节点（加速查找）
    unsigned long task_size;        // 用户虚拟地址空间大小
    
    /* 各段地址边界 */
    unsigned long start_code, end_code;    // 代码段起止
    unsigned long start_data, end_data;    // 数据段起止
    unsigned long start_brk, brk;          // 堆段起止
    unsigned long start_stack;              // 栈起始地址
    unsigned long arg_start, arg_end;      // 命令行参数段
    unsigned long env_start, env_end;      // 环境变量段
    /*...*/
};

// 1.当虚拟区较少时采取单链表，由mmap指针指向这个链表；
// 2.当虚拟区间多时采取红⿊树进⾏管理，由mm_rb指向这棵树。
struct vm_area_struct {
    unsigned long vm_start;         // 虚拟内存区域起始地址
    unsigned long vm_end;           // 虚拟内存区域结束地址
    
    /* 链表与树结构 */
    struct vm_area_struct *vm_next, *vm_prev;  // 双向链表指针
    struct rb_node vm_rb;                      // 红黑树节点
    unsigned long rb_subtree_gap;
    
    /* 关联的地址空间 */
    struct mm_struct *vm_mm;        // 所属的mm_struct
    
    /* 权限与标志 */
    pgprot_t vm_page_prot;          // 访问权限（读/写/执行）
    unsigned long vm_flags;         // 区域标志（如VM_READ|VM_WRITE）
    
    /* 共享与反向映射 */
    struct {
        struct rb_node rb;
        unsigned long rb_subtree_last;
    } shared;
    struct list_head anon_vma_chain;
    struct anon_vma *anon_vma;
    
    /* 操作方法与文件映射 */
    const struct vm_operations_struct *vm_ops;  // 区域操作函数集
    unsigned long vm_pgoff;         // 文件映射偏移量（以页为单位）
    struct file *vm_file;           // 映射的文件指针（若为文件映射）
    void *vm_private_data;          // 驱动私有数据
    
    /* 其他配置 */
    atomic_long_t swap_readahead_info;
#ifdef CONFIG_NUMA
    struct mempolicy *vm_policy;    // NUMA内存策略
#endif
    struct vm_userfaultfd_ctx vm_userfaultfd_ctx;
} __randomize_layout;

如图所示：

一个进程，一个页表，进行虚拟地址和物理地址的映射。

将物理地址转化为虚拟地址，提供给用户使用。

5.4 虚拟地址空间和分页机制的作用

将地址，"无序"变"有序"。
地址转化的过程中，可以对操作进行合法判定，进而保护物理内存(根据权限)。
让进程管理 和内存管理 在一定程度上解耦合。

5.5 拓展

可以不加载代码和数据到物理内存，只有struct task_struct，struct mm_struct，页表，需要访问时，"缺页中断"，再加载。所以创建进程，先有struct task_struct，struct mm_struct等，再有代码和数据。
当物理内存不足时，对于阻塞的进程，通过页表换出物理地址(释放内存)，变为阻塞挂起，腾出内存空间。