目录
[2、操作系统(Operating System)](#2、操作系统(Operating System))
[2.1 基本概念](#2.1 基本概念)
[2.2 目的](#2.2 目的)
[3.1 基本概念](#3.1 基本概念)
[3.1.1 PCB](#3.1.1 PCB)
[3.1.2 struct task_struct](#3.1.2 struct task_struct)
[3.1.3 进程的定义](#3.1.3 进程的定义)
[3.2 基本操作](#3.2 基本操作)
[3.2.1 查看进程](#3.2.1 查看进程)
[3.2.2 初识fork](#3.2.2 初识fork)
[3.3 进程状态](#3.3 进程状态)
[3.3.1 操作系统的进程状态](#3.3.1 操作系统的进程状态)
[3.3.2 Linux的进程状态](#3.3.2 Linux的进程状态)
[3.4 进程优先级](#3.4 进程优先级)
[3.4.1 基本概念](#3.4.1 基本概念)
[3.4.2 PRI&&NI](#3.4.2 PRI&&NI)
[3.4.3 竞争&&独立&&并行&&并发](#3.4.3 竞争&&独立&&并行&&并发)
[3.5 进程切换](#3.5 进程切换)
[3.6 Linux2.6内核进程O(1)调度队列](#3.6 Linux2.6内核进程O(1)调度队列)
[4.1 基本概念](#4.1 基本概念)
[4.2 常见的环境变量](#4.2 常见的环境变量)
[4.3 环境变量的相关命令](#4.3 环境变量的相关命令)
[4.3.1 查看环境变量](#4.3.1 查看环境变量)
[4.3.2 修改环境变量](#4.3.2 修改环境变量)
[4.3.3 删除环境变量](#4.3.3 删除环境变量)
[4.4 环境变量的特点](#4.4 环境变量的特点)
[5.1 程序地址空间](#5.1 程序地址空间)
[5.2 问题抛出](#5.2 问题抛出)
[5.3 进程虚拟地址空间和分页机制](#5.3 进程虚拟地址空间和分页机制)
[5.4 虚拟地址空间和分页机制的作用](#5.4 虚拟地址空间和分页机制的作用)
[5.5 拓展](#5.5 拓展)
1、冯诺依曼体系结构

- 输入设备:键盘,鼠标,网卡,磁盘等。
- 输入设备:显示器,网卡,磁盘等。
- 存储器 :即内存。
- CPU:简单来说,是中央处理器(运算器+控制器)。
注意:
- 因为输入输出设备的传输效率低,但是,让输入输出的设备的传输效率变高,成本太高,所以出现内存 ,即效率与成本之间的平衡,才普及了电脑。
- 程序的运行需要 CPU,而CPU****只能访问内存 ,所以程序必须加载到内存中。
- 数据流动的本质 :多台冯诺依曼体系结构的交互。
2、操作系统(Operating System)
2.1 基本概念
操作系统包括:
- 内核(进程管理,内存管理,文件管理,驱动管理)
- 其他程序(例如函数库,shell程序等等)

2.2 目的
操作系统,是一款进行 软硬件 管理 的软件。管理:先描述(类),再组织(数据结构)。

sysrem call(系统调用 ),驱动程序,都是为了屏蔽底层细节,外部实现统一。安全且方便。
-
系统调用封装内核 → 对应用程序统一。
-
驱动程序封装硬件 → 对操作系统统一。
3、Linux的进程
3.1 基本概念
3.1.1 PCB
PCB(Process Control Block),进程控制块 ,一种类型,Linux中的PCB为:struct task_struct。
3.1.2 struct task_struct
内容分类(后续会详细介绍)
- 标识符(PID):描述本进程的唯一标识符,用于区分其他进程。
- 状态:任务状态,包括退出代码、退出信号等。
- 优先级:相对于其他进程的优先级。
- 程序计数器:程序中即将被执行的下一条指令的地址。
- 内存指针:包括程序代码和进程相关数据的指针,以及与其他进程共享的内存块指针。
- 上下文数据:进程执行时处理器的寄存器中的数据(例如:CPU 寄存器状态,需附图说明)。
- I/O 状态信息:包括未完成的 I/O 请求、分配给进程的 I/O 设备,以及进程使用的文件列表。
- 记账信息:可能包括处理器占用时间、时钟周期总和、时间限制、计账号等。
- 其他信息:与进程相关的其他数据。
在 Linux 内核中,所有进程均通过 struct task_struct 结构体描述,并以双向链表 的形式(即队列)组织和管理。

3.1.3 进程的定义
进程 = 内核数据结构对象(PCB)+代码和数据
对进程的管理 ,就是对数据结构的增删改查。

3.2 基本操作
3.2.1 查看进程
- 通过 /proc 文件系统查看进程信息
-
/proc 是一个虚拟文件系统,提供内核和进程信息的实时访问。
-
每个进程的信息 存储在 /proc/[PID]/ 目录下,例如:
bash
ls /proc/1/ # 查看 PID=1 的进程信息(通常是 init/systemd)
- top:动态查看进程状态(CPU、内存占用等)
bash
top # 默认动态显示所有进程(按 CPU 占用排序)
top -p PID1,PID2,PID3 # 只监控指定 PID 的进程
top -u username # 只显示某用户的进程
交互命令(在 top 运行时使用)
-
k → 结束指定 PID 的进程(输入 PID 后回车)。
-
M → 按内存占用排序。
-
P → 按 CPU 占用排序(默认)。
-
q → 退出 top。
- ps:静态查看进程列表
bash
ps aux # 适用于查看所有进程的资源占用,进程状态等
ps -l PID # 适用于查看进程的父子关系,进程优先级等
注意:
- 可以配合grep进行搜索。
- ;和&&可以同时执行多条命令。
- 命令本身也是进程。
- 通过系统调用,获取进程标识符(PID & PPID)
-
getpid():获取当前进程的 PID。
-
getppid():获取当前进程的父进程 PPID。
如:
bash
#include <stdio.h>
#include <unistd.h>
int main() {
printf("PID: %d\n", getpid()); // 当前进程 ID
printf("PPID: %d\n", getppid()); // 父进程 ID
return 0;
}
3.2.2 初识fork
通过fork(系统调用),创建子进程。
bash
#include <stdio.h>
#include <sys/types.h>
#include <unistd.h>
int main()
{
int ret = fork();
printf("hello proc : %d!, ret: %d\n", getpid(), ret);
sleep(1);
return 0;
}

-
两个返回值,对父进程返回子进程的PID,对子进程返回0。因为父:子 = 1:N,父进程需要区分子进程,而子进程能通过PPID找到父进程。所以可以if ,让父子进程执行不同的语句。
-
fork() 创建子进程后,父子进程从 fork() 返回处继续执行 。注意:子进程不会执行fork()之前的代码。
-
当父子进程尝试修改数据 ,会发生写时拷贝 ,重新拷贝一份数据。所以父子进程独立运行。
3.3 进程状态
3.3.1 操作系统的进程状态

以上可以分为三类:
- 运行 :PCB对象在调度队列中,正在运行(运行 )或准备运行(创建+就绪)。
- 阻塞 :等待某种设备或资源就绪,PCB对象进入设备队列或资源队列。
- 挂起 :内存不足 ,将进程 的代码和数据放到磁盘中,进程是运行状态就是就绪挂起,进程是阻塞状态就是阻塞挂起。
注意:
- 一个CPU,一个调度队列
- PCB对象 ,可以同时在不同的数据结构中,即可以在不同的队列中。

- 进程的状态 ,就是PCB对象在不同队列之间的流动 ,本质是数据结构的增删改查。
3.3.2 Linux的进程状态
bash
/*
* The task state array is a "bitmap" of reasons to sleep.
* "Running" is 0, other states can be combined via bit tests.
*/
static const char *const task_state_array[] = {
"R (running)", /* 0 - 运行中或就绪 */
"S (sleeping)", /* 1 - 可中断睡眠(等待事件)*/
"D (disk sleep)", /* 2 - 不可中断睡眠(通常等待I/O)*/
"T (stopped)", /* 4 - 被信号暂停(如SIGSTOP)*/
"t (tracing stop)", /* 8 - 被调试器跟踪暂停 */
"X (dead)", /* 16 - 完全终止(不会出现在任务列表)*/
"Z (zombie)", /* 32 - 僵尸进程(已终止但未回收)*/
};
- R:运行中 或就绪(进程一创建,就进入就绪状态)。
- S:可中断休眠(浅睡眠,一种阻塞),能被操作系统杀死。
- D:不可中断休眠(深睡眠,一种阻塞),不能被操作系统杀死。
- T:暂停,如:Ctrl+z。
- t:暂停,如:debug的断点。
- X:死亡 ,进程结束。
- Z:僵尸,子进程退出 ,父进程需要获取子进程退出前的信息 (即子进程PCB对象里面的信息,其指向的代码和数据已被释放),并释放子进程的PCB对象 ,如果父进程没有获取子进程退出前的信息 ,那么子进程 被称为"僵尸进程 ",其PCB对象将会一直存在 ,造成内存泄漏。如果父进程先结束 ,其子进程 称为"孤儿进程 ",会被1号进程 "领养",不会成为"僵尸进程"。
注意:
阻塞 是进程的 正常状态 (因等待资源主动暂停),而 饥饿 是 异常现象 (可能是一直阻塞,或进程可能无需等待资源,但因调度问题无法运行等)
3.4 进程优先级
3.4.1 基本概念
进程得到CPU资源 的先后顺序。
注意:
- 优先级 是一种数字 ,值越低,优先级越高。
- 优先级 ,能得到某种资源 (只是先后问题 ),权限 ,能否得到某种资源。
- Linux,基于时间片的分时操作系统,要考虑公平性,所以优先级变化不大。
3.4.2 PRI&&NI
- PRI:进程的优先级,默认80。
- NI:nice值,进程优先级的修正数据,默认0。范围是**[-20,19]**。
注意:
- 进程真实的优先级****PRI = 80 + NI。所以优先级的范围是**[60,99]**。保证公平性。
- NI 的存在 是为了在 灵活性 (用户态调整)和 稳定性(内核控制)之间取得平衡。
3.4.3 竞争&&独立&&并行&&并发
- 竞争 :系统中进程数量远多于 CPU 资源(如单核 CPU 只能同时运行 1 个进程),因此进程之间需要竞争 CPU 时间片、内存、I/O 等资源。通过 优先级(Priority) 或 调度算法 (如时间片轮转)来合理分配资源,确保高优先级或关键任务能优先执行。
- 独立 :每个进程拥有独立的地址空间、文件描述符、寄存器状态等资源,一个进程崩溃不会直接影响其他进程。
- 并行 :多个进程 在 多个 CPU/核心上真正同时运行(物理层面的同时执行)。
- 并发 :多个进程 在 单个 CPU 上通过快速切换(时间片轮转) 模拟"同时运行"的效果(逻辑层面的交替执行)。
3.5 进程切换
CPU上下文切换(Context Switch) ,实际上是任务切换 ,或CPU寄存器的切换。
流程:
-
保存现场 :
当多任务操作系统决定切换到另一个任务时,首先将当前运行任务的CPU寄存器状态 完整保存到该任务的私有堆栈中。
-
恢复现场 :
从待运行任务的堆栈中加载其之前保存的寄存器状态到CPU。
-
切换执行 :
CPU开始执行新任务的指令流。

注意:
- 进程在一个时间片内占用CPU,不会一直占用。
- 进程切换 的本质 :保存和恢复 进程硬件上下文的数据(即CPU寄存器的状态)。
3.6 Linux2.6内核进程O(1)调度队列

- 对于active队列,先看nr_active,有没有进程,再通过bitmap[5],按照优先级,快速定位队列,最后挑队首的进程,执行。
- 进程执行完一个时间片,进入expired队列(防止高优先级进程执行完一个时间片,又插队)。当active队列为空时,swap(&active,&expired),交换两个指针,继续调度active队列。
- 新来一个进程,如果放到expired队列,就是就绪状态,如果放到active队列,也是就绪状态,但是"插队"了。
- 如果active中的进程,更改NI(nice值),即更改优先级,因为麻烦,所以执行完一个时间片后,进入过期队列时,再更新优先级。
4、Linux的环境变量
4.1 基本概念
环境变量 是操作系统中用于指定运行环境参数的键值对(KEY=VALUE)。
KEY是环境变量的名字 ,VALUE是环境变量的内容。
4.2 常见的环境变量

4.3 环境变量的相关命令
4.3.1 查看环境变量
命令行:
- env:显示当前进程 所有的环境变量。
- echo $**环境变量名字 :显示环境变量的内容**。
- set:显示当前进程 所有的变量。如:直接i=10或i,定义本地变量i。
系统调用:
- int main(int argc,char* argv[ ],char* env[ ]){ return 0;},argv是命令行输入的命令字符串数组 (以空格为分隔符,将命令分成若干个字符串,数组以NULL结尾),argc是argv数组元素的个数 ,env是该进程 环境变量的字符串数组(环境变量放在字符串里,数组以NULL结尾)。
- getenv(),在当前进程 ,根据环境变量的名字 ,获取环境变量的内容。
- 全局变量 ****environ(环境变量字符串数组,数组以NULL结尾),必须先extern char** environ;声明,再使用。
4.3.2 修改环境变量
- **环境变量名=环境变量名:内容**,**给环境变量加内容**。如:PATH=PATH:/home/Lzc/test。
- export 变量名="值",新增环境变量。
注意:
以上关闭终端,重新登录,就会失效。想要永久生效,就要更改配置文件(~/.bashrc或~/.bash_profile),因为bash每次都是拷贝配置文件的内容。
4.3.3 删除环境变量
- unset 变量名:清除变量,本地变量和环境变量都可以。
4.4 环境变量的特点
- 新创建的子进程会继承父进程的环境变量 (全局性)。进程相互独立,所以环境变量也独立,互不影响。
- 本地变量不会被新创建的子进程继承。
5、Linux的进程虚拟地址空间
5.1 程序地址空间
以32位机器为例:

5.2 问题抛出
bash
#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>
int g_val = 0; // 全局变量,初始化为0
int main() {
pid_t id = fork(); // 创建子进程
if (id < 0) { // fork失败
perror("fork");
return 0;
}
else if (id == 0) { // 子进程分支
g_val = 100; // 子进程修改全局变量
printf("child[%d]: %d : %p\n", getpid(), g_val, &g_val);
}
else { // 父进程分支
sleep(3); // 父进程休眠3秒,确保子进程先执行
printf("parent[%d]: %d : %p\n", getpid(), g_val, &g_val);
}
sleep(1); // 防止父进程或子进程提前终止
return 0;
}

为什么地址一样,内容却不一样?
说明:
- 该地址 绝对不是物理地址!
- 在Linux系统下,这种地址称为**虚拟地址**。
- 我们用C/C++语言看到的地址都是虚拟地址,物理地址对用户完全不可见,由操作系统统一管理。
5.3 进程虚拟地址空间和分页机制
所以,程序地址空间,准确来说是,进程虚拟地址空间。
首先,一个进程,一个虚拟地址空间。
bash
struct task_struct {
/*...*/
struct mm_struct *mm; // 指向进程用户空间虚拟地址空间描述符
// - 对普通用户进程:指向其虚拟地址空间的用户空间部分
// - 对内核线程:NULL(因内核线程无独立用户空间)
struct mm_struct *active_mm; // 内核线程使用的替代mm字段
// - 内核线程的mm为NULL时,可借用其他进程的地址空间
// - 所有进程的内核空间映射相同,故内核线程可复用
/*...*/
};
struct mm_struct {
/*...*/
struct vm_area_struct *mmap; // 虚拟内存区域(VMA)链表头
struct rb_root mm_rb; // VMA红黑树根节点(加速查找)
unsigned long task_size; // 用户虚拟地址空间大小
/* 各段地址边界 */
unsigned long start_code, end_code; // 代码段起止
unsigned long start_data, end_data; // 数据段起止
unsigned long start_brk, brk; // 堆段起止
unsigned long start_stack; // 栈起始地址
unsigned long arg_start, arg_end; // 命令行参数段
unsigned long env_start, env_end; // 环境变量段
/*...*/
};
// 1.当虚拟区较少时采取单链表,由mmap指针指向这个链表;
// 2.当虚拟区间多时采取红⿊树进⾏管理,由mm_rb指向这棵树。
struct vm_area_struct {
unsigned long vm_start; // 虚拟内存区域起始地址
unsigned long vm_end; // 虚拟内存区域结束地址
/* 链表与树结构 */
struct vm_area_struct *vm_next, *vm_prev; // 双向链表指针
struct rb_node vm_rb; // 红黑树节点
unsigned long rb_subtree_gap;
/* 关联的地址空间 */
struct mm_struct *vm_mm; // 所属的mm_struct
/* 权限与标志 */
pgprot_t vm_page_prot; // 访问权限(读/写/执行)
unsigned long vm_flags; // 区域标志(如VM_READ|VM_WRITE)
/* 共享与反向映射 */
struct {
struct rb_node rb;
unsigned long rb_subtree_last;
} shared;
struct list_head anon_vma_chain;
struct anon_vma *anon_vma;
/* 操作方法与文件映射 */
const struct vm_operations_struct *vm_ops; // 区域操作函数集
unsigned long vm_pgoff; // 文件映射偏移量(以页为单位)
struct file *vm_file; // 映射的文件指针(若为文件映射)
void *vm_private_data; // 驱动私有数据
/* 其他配置 */
atomic_long_t swap_readahead_info;
#ifdef CONFIG_NUMA
struct mempolicy *vm_policy; // NUMA内存策略
#endif
struct vm_userfaultfd_ctx vm_userfaultfd_ctx;
} __randomize_layout;
如图所示:

一个进程,一个页表,进行虚拟地址和物理地址的映射。

将物理地址转化为虚拟地址,提供给用户使用。
5.4 虚拟地址空间和分页机制的作用
- 将地址,"无序"变"有序"。
- 地址转化的过程中,可以对操作进行合法判定,进而保护物理内存(根据权限)。
- 让进程管理 和内存管理 在一定程度上解耦合。
5.5 拓展
- 可以不加载代码和数据到物理内存,只有struct task_struct,struct mm_struct,页表,需要访问时,"缺页中断",再加载。所以创建进程,先有struct task_struct,struct mm_struct等,再有代码和数据。
- 当物理内存不足时,对于阻塞的进程,通过页表换出物理地址(释放内存),变为阻塞挂起,腾出内存空间。