[Linux]进程创建➕进程终止

文章目录

1.再谈fork()函数
- [1.1fork()创建子进程 OS都做了哪些工作?](#1.1fork()创建子进程 OS都做了哪些工作?)
- 1.2对上述问题的理解
- 1.3写时拷贝进行父子进程分离的优势
- 1.4了解eip寄存器和pc
- 1.5了解进程的上下文数据
- 1.6对计算机组成的理解
- 1.7fork常规用法
- 1.8fork调用失败的原因
2.进程终止

1.再谈fork()函数

fork()函数

1.1fork()创建子进程 OS都做了哪些工作?

进程 = 内核数据结构 + 进程代码和数据内核数据结构包括task_struct(进程控制块)和mm_struct(进程地址空间)和页表和映射关系进程代码和数据是进程加载到内存时形成的
所以他做的工作有以父进程task_struct为模板创建子进程的task_struct(对于PID进程状态优先级等自己重写)
创建进程地址空间创建页表创建映射关系将代码和数据加载到内存
这里要注意代码是共享父进程的数据是写时拷贝

1.2对上述问题的理解

fork()函数创建子进程进程 = 内核数据结构 + 进程代码和数据内核数据结构包括task_struct(进程控制块)和mm_struct(进程地址空间)和页表和映射关系进程代码和数据是进程加载到内存时形成的
由于进程的独立性子进程也要有自己的内核数据结构和进程代码和数据
内核数据结构: 前面我们已经讲到子进程的task_struct是按照父进程的task_struct为模板创建的大部分相同少部分如PID自己创建
代码: 实际上代码都是只读的不可写/修改所以代码是父子共享的
数据: 像申请的堆空间局部变量等可能被修改需要各自独有

现在来考虑数据的问题创建子进程时并不是一开始就把父进程的数据拿来拷贝一份原因:

子进程被创建不一定立即运行立即运行也不一定立马访问数据空间即便访问也不一定会修改/写入
所以不需要对不会被访问的/不会写入的数据进行拷贝但是OS无法提前知道哪些空间不会被访问/或者被写所以他不知道什么空间要拷贝什么空间不要拷贝对于要拷贝的空间(会写入/修改的空间) 即便你提前拷贝了也不是立即写入/修改
综上 OS选择写时拷贝即子进程要对某一空间修改/写入才把父进程的对应空间拷贝(之前提到过)

1.3写时拷贝进行父子进程分离的优势

需要写入/修改再分配空间拷贝内容高效使用内存
OS无法提前知道哪些空间不会写入/修改哪些空间会提前写入/修改即便知道了对会写入/修改的空间提前拷贝了子进程也不一定立即就写入/修改
抛开写时拷贝对于C语言常量字符串如const char* str0 = "hello";const char* str1 = "hello"; 这里str0和str1实际上执行同一块空间因为那个字符串压根不会被修改只会读也就完全没必要搞两份话说到这了编译器都知道在为代码分配虚拟地址时节省空间对于直接在物理内存上的操作更要空间节省内存空间在C++专栏string类模拟实现也讲到了写时拷贝
父子进程的数据需要分离以保证进程独立性写时拷贝使得这个操作更为优雅的完成(延时申请空间提高整机效率)

上述提到 fork()函数之后父子进程代码共享是fork()之后共享还是所有共享答案是所有共享那么子进程为什么不从main()函数开头执行而是从fork()函数之后执行

代码汇编后代码行数大大增多每一行代码有自己编译器分配的内部虚拟地址(对于函数调用 A函数结束要调用B函数那么A函数内部还要记录B函数的虚拟地址) 也有加载到内存时的外部物理地址
进程未结束前随时会被中断如阻塞/挂起当满足某种条件再次得到调度时并不是再从第一行代码开始而是从上一次结束开始进程执行的位置是CPU负责记录的 CPU内有对应的寄存器记录当前进程得到执行位置寄存器在CPU内只有一份寄存器内的数据可以有多份
寄存器内的数据等这些进程的上下文数据在子进程创建时也要给子进程子进程认为自己的eip初始值是fork()之后的代码
所以子进程可以看到所有的代码但是它是从fork()之后执行的

1.4了解eip寄存器和pc

EIP和PC都是指令指针寄存器 ，用于存储下一条要执行的指令的地址 。它们的区别在于它们所处的体系结构和操作系统环境不同。

PC指针是指程序计数器（Program Counter） ，也称为指令指针（Instruction Pointer），是一种寄存器，用于存储计算机正在执行的指令的地址。在CPU执行程序时，PC指针会不断地更新，以指向下一条要执行的指令的地址。在程序执行过程中，PC指针的值决定了程序的执行顺序。

EIP是指扩展指令指针（Extended Instruction Pointer） ，是x86架构中的一个寄存器，用于存储下一条要执行的指令的地址。与PC指针不同的是，EIP寄存器是在保护模式 下使用的，而PC指针则是在实模式下使用的。此外，EIP寄存器还可以存储一些特殊的指令，如中断指令和异常指令的返回地址等。

在x86体系结构中，EIP是指扩展指令指针（Extended Instruction Pointer），而PC是指程序计数器（Program Counter）。在Linux 0.11的代码中，EIP和PC都被用来存储下一条要执行的指令的地址，但是它们的值是由不同的寄存器来维护的。在Linux 0.11中，EIP是由CPU自动维护的，而PC是由操作系统维护的。

1.5了解进程的上下文数据

进程上下文实际上是进程执行活动全过程的静态描述。具体的说，进程上下文包括计算机系统中与执行该进程有关的各种寄存器（例如通用寄存器，程序计数器PC，程序状态字寄存器PS等）的值，程序段在经过编译过后形成的机器指令代码集，数据集及各种堆栈值PCB结构。这里，有关寄存器和栈区的内容是重要的，例如没有程序计数器PC和程序状态寄存器PS，CPU将无法知道下一条待执行指令的地址和控制有关操作。

进程上下文是可以按照层次规则组合起来的。例如在UNIX System V中，进程上下文由用户级上下文，寄存器上下文以及系统级上下文组成。用户级上下文由进程的用户程序段部分编译而成的用户正文段，用户数据，用户栈组成。

1.6对计算机组成的理解

硬件只是一个机械设备没有软件的交互它就跟个铁疙瘩一样但是并不是说他不重要他是一系列指令的最终执行者内存随时可以被读写有页表的存在使得它不那么随意硬件傻傻呼呼有软件的配合使得它能做各种各样的工作 CPU傻傻呼呼(只会获取指令分析指令执行指令 $CPU需要认识各种指令集$ ) 有寄存器的存在使得CPU知道从哪获取怎么分析从哪执行

1.7fork常规用法

一个父进程希望复制自己，使父子进程同时执行不同的代码段。例如，父进程等待客户端请求，生成子

进程来处理请求。

一个进程要执行一个不同的程序。例如子进程从fork返回后，调用exec函数。

1.8fork调用失败的原因

系统中有太多的进程

实际用户的进程数超过了限制

2.进程终止

2.1进程终止时操作系统要做的工作

释放进程申请的相关内核数据结构
释放进程对应的代码和数据
本质是释放系统资源

2.2进程终止的常见方式

a. 代码跑完，结果正确

b.代码跑完，结果不正确

c.代码没有跑完，程序崩溃时退出码无意义退出码对应的return语句没有被执行比如对空指针赋值会直接崩溃而没有执行return语句此时不再关注退出码而是关注程序崩溃的原因

1.main函数的返回值

返回0: 运行结果正确
返回非0: 运行结果错误
返回给上一级进程用来评判该进程执行结果是否正确 (返回给系统/父进程)
echo $?: 获取最近一个进程执行完毕的退出码(main()函数的返回值--进程退出码)
非0值有无数个不同的非零值标识不同的错误原因当程序运行结束结果不正确根据退出码定位错误原因

有什么意义?

c 复制代码

int main()
{
	int ret = 0;
	int sum = ADD(100);
	if(sum != expected)
	{
		ret = 1;
	}
	return ret;
}

通过main()函数的返回值和查看进程的退出码可以判断代码运行结果是否正确

2.查看错误码对应的错误信息

ls进程的退出码和main的一样

kill进程的退出码和main的不一样

即可以使用这些退出码和含义也可以自己设计一套退出方案

2.3如何用代码终止一个进程

main()函数 return语句 return 退出码 其他函数内部的return是结束了这个函数
exit()/_exit() 在代码任何地方调用都直接终止进程

exit()是个C语言库函数 _exit()是个系统调用接口
exit()使得程序结束时进程终止前会执行用户定义的清理函数会冲刷缓冲区/关闭流但是 _exit()直接终止进程
OS为了让外来者易于操作/访问设计了一系列调用接口由于这些接口含不够简便大佬有对这些接口进行封装形成库函数实际上exit()底层调用的就是_exit()
printf("hello"\n)数据保存在缓冲区这个缓冲区一定不在OS内部如果是OS维护的那么_exit()终止进程时也可以刷新缓冲区这个缓冲区是C标准库维护的