【Linux取经路】进程的奥秘

文章目录

1、什么是进程?

在上一篇文章【Linux取经路】冯诺依曼结构体系与操作系统的碰撞中提到过,任何一个程序想要运行,必须先加载到内存中。一个已经加载到内存中的程序(正在运行的程序),就叫进程。在很多教材里进程一杯叫做任务。

在 W i n d o w s Windows Windows操作系统下,我们可以通过任务管理器来查看计算机当前正在运行的进程。

在 L i n u x Linux Linux操作系统下,可以通过下面的指令来查看当前正在运行的进程信息

bash 复制代码
ps axj
top
//这两条指令都可以查看进程

1.1 自己写一个进程

进程就是加载到内存中的可执行程序,因此我们自己写一个.c源代码,通过编译就可以得到一个可执行程序。

cpp 复制代码
//mycode.c
#include <stdio.h>  
#include <unistd.h>  
                                                                                                                                                                                              
int main()                              
{                                       
    while(1)                            
    {                                    
        printf("我是一个进程!!!\n");  
        sleep(1);                       
    }                                   
    return 0;                           
}  

我们写的这个源代码是存储在磁盘上的,编译得到的可执行程序也是存储在磁盘上的,只有通过./mycode去执行 mycode 这个可执行文件,才能把它加载到内存中。加载到内存之后,此时就会得到一个名为 mycode 的进程,可以通过下面这条指令来查看该进程

bash 复制代码
ps axj | grep mycode
//ps axj 是查看当前的所有进程
//通过管道和grep将mycode进程的信息过滤出来


小Tips:我们写的源代码,最终一定是由CPU来运行,而CPU只能从内存中拿数据,这就决定了我们的可执行程序和代码一定要先加载到内存当中。此外,CPU在不运行我们代码的时候,他可能在检查计算机的各种状态,释放计算机的各种资源,将操作系统中的数据刷新到磁盘等日常管理工作,这说明操作系统本身也一定要在内存当中,我们平时开机本质上其实就是把操作系统从外设搬到内存当中。


小Tips:一个可执行程序本质上就是一个二进制文件,我们将一个可执行程序加载到内存,本质上就是将一个二进制文件加载到内存,这个二进制文件是由代码和数据两部分组成,无论是数据还是代码归根结底都可以被叫做数据,代码最终交给控制器去执行,数据最终交给运算器去运行。

根据上面的截图可以看出,一个计算机可以同时存在多个进程,给用户的主观感受就是,可以同时使用多个软件,即在我们的计算机上,聊天、听歌、打游戏可以同时进行。现在我们把这种可以同时运行多个进程的操作系统叫做多道操作系统。

2、操作系统如何管理进程?

操作系统中可以有多个进程就类似于学校中有不同年级的学生,学校会将不同年级的学生统统管理起来,操作系统也一样,它需要把多个进程管理起来。

操作系统如何对进程做管理呢?还记得上一篇文章中介绍的操作系统对软硬件资源的是如何管理的嘛👀?忘了的小伙伴可以走传送门回去看看。操作系统对进程的管理也一定是先描述、在组织。即先定义一个结构体,里面有进程的各种属性,用一个结构体对象来表示一个进程,再将这些结构体对象用一种数据结构组织起来,组织的目的是为了更好的管理。此后,操作系统对进程的管理就变成了对某种数据结构的增删查改。

2.1 描述进程-PCB

任何可执行程序,在加载到内存,形成真正的进程时,操作系统要先创建描述进程的结构体对象。这个对象中存储了进程的各类信息,这个对象也被叫做进程控制块,本质上就是进程属性的集合。在课本上称之为 PCB (process control block),因为操作系统是由C语言写的,所以 PCB 本质上一定是一个 struct 结构体,Linux操作系统下的PCB是:task_struct

小Tips:所有操作系统中的进程控制块都被叫做PCB。在不同的平台下,PCB的具体实现是有差异的。

2.2 组织进程

上面介绍了操作系统是如何描述进程的,接下来操作系统需要把多个进程给组织起来。所有运行在系统里的进程都以 PCB 对象链表的形式存在内核里。所以最终操作系统对进程的管理就变成了对链表的增删查改。

2.3 深入理解进程

此时再来看一个进程需要具备的东西。首先可执行程序必须先加载到内存,本质是将代码和数据加载内存,这说明一个进程一定有它所对应的代码和数据。其次,操作系统为了管理好进程,需要为该进程创建一个 PCB 对象用来描述该进程。总结:PCB + 代码和数据就是一个进程必须具备的两个东西。


小Tips:虽然进程由两部分组成,但是操作系统管理进程只关心进程的 PCB 对象,它根本不关心该进程的代码和数据。

举个例子帮助大家理解:春人今年参加高考,成功的考上了 A 大学。在假期的时候,A 大学来到春人的高中,将春人的的档案从高中拿到大学,再将春人的信息录入学校的教务系统,到了九月份,春人带着录取通知书去大学报道,春人进入校门后,开心的说"我终于是 A 大学的一名学生啦",旁边的保安大叔也跟着笑,请问旁边的保安大叔是该学校的学生嘛?答案是否定的。虽然保安大叔可能在学校工作了很多年,但是他的信息并没有被录入教务系统,所以保安大叔不是该学校的学生。因此我们可以得出结论:只有人在学校是不足以说明这个人是该校的学生,只有将这个人的信息录入教务系统后,才能说这个人是学校的学生。进程也一样,只把代码和数据加载到内存,是不足以说明它是一个进程,还需要创建描述给进程的 PCB 对象,这二者共同得到了一个进程。

3、Linux环境下的进程

第二小节介绍的是任何一款操作对进程做管理的要求,这一小节我们主要来看看 Linux 环境下的进程管理。

3.1 task_struct

task_struct 是 Linux 操作系统下的 PCB 结构,它是 Linux 内核的一种类型,会被装载到 RAM(内存)里,并且包含着进程的信息。

3.2 task_struct内容分类

  • 标识符:描述一个进程的唯一标识符,用来区分不同进程。

  • 状态:任务状态,退出码,退出信号等。

  • 优先级:相对于其他程序进程的优先级。

  • 程序计数器:程序中即将被执行的下一条指令的地址。

  • 内存指针:包括程序代码和进程相关数据的指针,还有和其他进程共享的内存块的指针。

  • 上下文数据:进程执行时处理器的寄存器中的数据。

  • I / O状态信息:包括显示的 I/O 请求,分配给进程的 I/O 设备和被进程使用的文件列表。

  • 记账信息:可能包括处理时间总和,使用的时钟数总和,时间限制,记账号等。

3.3 组织进程

Linux 内核中,最基本的组织进程 task_struct 的方式是采用双向链表组织。但是一个 task_struct 对象不仅仅属于一个双链表,它可能存在多个数据结构中。对进程的管理,本质上就是将 task_struct 对象放到某个数据结构中。

3.4 查看进程属性

bash 复制代码
ps axj | head -1 && ps axj | grep mycode
//&&用来连接两个指令操作
//左边是只打印"表头"信息
//右边是将mycode进程的相关信息过滤出来


小Tips:最后一行显示的其实是 grep 命令的进程。因为 grep 命令的关键字里也有 mycode ,当我们用 grep 命令来过滤操作系统中的进程时,grep 自己首先需要先变成一个进程,然后它才能被 CPU 调度执行,因此最终过滤时会把 grep 自己也带上。

bash 复制代码
ls /proc

proc 是 Linux 系统下的一个目录,关机后,目录里面的信息全都没了,开机的时候操作系统会帮我们创建对应的目录和文件。proc 目录下的所有信息都是 Linux 操作系统用文件系统的方式把内存中的文件包括进程信息给我们可视化出来了,它上面的数据都是内存级的。如上图所示,其中蓝色的数字表示一个目录,该数字就是进程的唯一标识 PID。该目录里面保存了进程的所有属性。


小Tips:当我们终止掉 mycode 进程 proc 目录下的1624目录也会跟着被清理。其次,一个进程终止后再启动,它的 PID 大概率是会变化的。

mycode 进程目录下的 exe 是一个链接文件,它就指向当前进程所对应的可执行程序的路径,它就是将 task_struct 对象中的内存指针给可视化了出来。cwd 表示该进程的工作目录,即进程所对应可执行程序所在的目录。我们的程序中一般打开一个文件或者创建一个文件,在只写文件名的情况下,程序就会默认在当前目录下查找文件或者将创建的文件放在当前目录下,本质上就是因为进程 PCB 中存的有当前目录的路径信息。


4、结语

今天的分享到这里就结束啦!如果觉得文章还不错的话,可以三连支持一下,春人的主页还有很多有趣的文章,欢迎小伙伴们前去点评,您的支持就是春人前进的动力!

相关推荐
白鹭19 分钟前
基于LNMP架构的分布式个人博客搭建
linux·运维·服务器·网络·分布式·apache
java叶新东老师43 分钟前
linux 部署 flink 1.15.1 并提交作业
linux·运维·flink
程序员JerrySUN2 小时前
Linux系统架构核心全景详解
linux·运维·系统架构
无敌的牛2 小时前
Linux文件理解,基础IO理解
linux·运维·服务器
angushine2 小时前
鲲鹏服务器logstash采集nginx日志
运维·服务器·nginx
未来之窗软件服务2 小时前
跨平台 WebSocket 服务器的设计与实现 —— 基于.NET 8 的跨操作系统解决方案linux,macos,windows——开发工具
linux·服务器·websocket·仙盟创梦ide·东方仙盟
睿思达DBA_WGX2 小时前
由于主库切换归档路径导致的 Oracle DG 无法同步问题的解决过程
运维·数据库·oracle
杰哥的狗2 小时前
nacos连接失败,启动失败常见问题
linux·docker
Jackilina_Stone2 小时前
【faiss】用于高效相似性搜索和聚类的C++库 | 源码详解与编译安装
android·linux·c++·编译·faiss