进程通信----匿名管道

1.引入

1.1 进程通信的概念

指两个或多个进程在数据层面实现交互，因进程具有独立性，进程通信的成本较高。

1.2 进程通信的目的

满足进程间的多种交互需求，包括：

基本数据的传递
发送命令
进行某种协同
传递通知等

1.3 实现逻辑

1.3.1 本质

让不同的进程能够看到同一份 "资源"（特定形式的内存空间）。

关于**"资源"**的说明：

1.通常由操作系统提供，而非通信进程中的某一个：

若由某一进程提供，会涉及 "资源归属" 问题，破坏进程独立性
操作系统相当于第三方空间，可保证公平性和独立性

2.进程访问该资源实现通信，本质是访问操作系统：

资源的创建、使用、释放均需通过系统调用接口完成
操作系统会设计独立的通信模块（隶属于文件系统），即 IPC 通信模块

1.3.2 通信的标准方式

标准：主要有 system V（本地通信）和 posix（网络通信）
重点讲解的 system V 通信方式包括 3 种：
1. 消息队列
2. 共享内存
3. 信号量
其他方式：基于文件级别的通信 ------ 管道

2.管道的原理

2.1 管道的本质

管道是 Unix 中最古老的进程间通信形式，本质是内存级文件（非磁盘文件），一个文件可被多个进程打开并访问，管道符|通过重定向实现进程间数据流传递（如who | wc -l中，who的标准输出作为wc -l的标准输入）。

2.2 内存级文件

2.2.1 进程打开文件的基础

每个进程打开文件时会有文件描述符表和对应的struct file对象，进程启动时默认打开stdin、stdout、stderr（分别对应键盘和显示器文件）。
当进程再打开一个文件时，会创建新的struct file对象，操作系统会遍历文件描述符表，分配最小且未使用的文件描述符（通常是 3 号），将该文件地址填入对应位置后，把文件描述符数字返回上层。
每个文件需具备三个核心属性：inode、访问底层的方法集（file_operators）、属于文件自己的页缓冲区。
磁盘文件存在分区分组、属性和数据块，可通过属性、数据块预加载数据到缓冲区供用户读写；写操作时，数据先写入缓冲区，修改后内存与磁盘数据不一致（脏数据），后续刷新到磁盘（数据落盘）；无论读写，都需先将数据加载到文件缓冲区。

2.2.2 内存级文件的可行性及特性

技术上可行：操作系统可为其创建对应的struct file对象，包含inode、file_operators、页缓冲区，无需关联磁盘文件；具体实现时，只需将file_operators中原先指向磁盘操作的读写方法改为直接对缓冲区进行读写，无需将数据刷新到磁盘，磁盘中也不会存在该文件的实体。
存在形式：内存级文件在操作系统内核中广泛存在，仅在内存中可用，可挂接到文件系统让用户通过目录结构看到，本质是去掉数据刷新到磁盘步骤的文件逻辑，与已知文件体系兼容。

2.2.3 内存级文件与进程通信

子进程创建时，操作系统会为其重新创建PCB、地址空间等，子进程会拷贝父进程的files_struct（文件描述符表），但父进程的struct file结构体及对应的文件本身不会被拷贝（文件属于文件系统，与进程是并列关系，非从属关系），子进程的文件描述符表中记录的指针会指向与父进程相同的文件。
父进程和子进程会看到同一个文件资源（包括新建的内存级文件），而进程间通信的本质是让不同进程看到同一份资源 ，因此借助这个内存级文件，父进程可向其缓冲区写入数据，子进程通过对应的文件描述符读取，从而实现进程间通信，这也是管道的一个朴素原理（类似fork创建的父子进程能向同一终端打印，因它们共享标准输入输出文件）。

2.3 引用计数确保父子进程文件共享稳定性

当父进程以读方式打开管道文件后通过fork创建子进程，此时父子进程的文件描述符会指向同一个文件，为避免一方关闭文件影响另一方，struct file中包含cnt引用计数 ------fork时父子进程指向同一文件会使该引用计数加 1 变为 2；当其中一方关闭文件时，只会将引用计数减 1，若此时计数不为 0，文件不会被真正关闭，只有当引用计数减到 0 时文件才会关闭，因此即便父进程关闭文件，只要子进程未关闭，引用计数不为 0，子进程仍能正常读取，不会因一方关闭而导致文件及缓冲区被销毁，从而保证了父子进程通信的稳定性。

2.4 管道的具体实现流程（站在内核角度）

为实现父子进程通信并避免因访问同一位置出错，需要区分读位置和写位置以防止互相干扰，因此操作系统会以读方式和写方式各打开一次同一内存级文件，产生两个struct file；由于打开的是同一个文件，操作系统会保证这两个struct file对应的inode、文件大小、属性、文件缓冲区等保持一致。

进程以读方式打开该内存级文件时，会被分配 3 号文件描述符，该文件必然有自己的inode和文件缓冲区（任何文件的数据都需先加载到内存才能被访问，内存级文件也不例外）；若父进程需同时以写方式打开，则需在操作系统层面再创建一个struct file并分配 4 号文件描述符，而非仅修改原文件属性 ------ 这是因为读写方式不同，每个文件有各自的读写位置，若让 4 号文件描述符直接指向原文件，会导致struct file因读写混用出问题，而新创建的写方式打开的文件与第一个读方式打开的文件会共享同一个inode和缓冲区。

子进程创建与引用计数变化：创建子进程时，会拷贝父进程的PCB和files_struct，子进程的 3 号和 4 号文件描述符分别指向父进程对应文件描述符所指向的struct file，且这些struct file的引用计数会各自加一；但数据放入文件缓冲区后，若允许父子进程双向读写，会难以区分数据来源（父进程或子进程所写），操作过程也会很复杂，因此设计者规定父子进程只能通过管道进行单向通信。

具体示例：以子进程写入、父进程读取为例，父进程会关闭 4 号文件描述符（该描述符指向以写方式打开的struct file），即关闭自身写端；子进程会关闭 3 号文件描述符（该描述符指向以读方式打开的struct file），即关闭自身读端，同时这些struct file的引用计数会相应减一。

2.5 管道通信的适用情况

适用范围：管道通信只适用于有血缘关系的进程（常用于父子），无血缘关系的进程无法用管道通信；父进程创建的多个子进程之间可以通信，父进程与子进程的子进程也可以通信。
原因：有血缘关系才能继承同一个files_struct。
管道的别称：内存级文件没有名字、路径、inode，所以管道也被叫做匿名管道。

3.管道的接口：pipe

函数原型

cpp 复制代码

#include <unistd.h>
int pipe(int pipefd[2]);

作用：创建一个匿名管道，这是一种半双工的通信方式，数据只能在一个方向上流动。它会返回两个文件描述符，分别用于读取和写入操作。

参数： pipefd[2]：这是一个输出型参数，是包含两个整数的数组，用于存储管道的文件描述符。

pipefd[0]：代表管道的读端，用于从管道读取数据。
pipefd[1]：代表管道的写端，用于向管道写入数据。

返回值

若成功，返回 0。
若失败，返回 - 1，并且会设置 errno 来指示错误类型，常见的错误如下：
- EMFILE：当前进程打开的文件描述符数量已达到上限。
- ENFILE：系统范围内的文件描述符资源已耗尽。
- EFAULT：pipefd 数组所在的地址空间不可访问。

4.管道的4种核心行为

管道是半双工的进程间通信机制，其读写行为受两端状态（是否打开、数据量）直接影响，具体规则如下：

4.1 读写端均正常，管道为空

行为：读端调用 read 会阻塞，直到管道中有数据写入。
原理：无数据可读取时，读操作进入等待状态，待写端写入数据后被唤醒。

4.2 读写端均正常，管道被写满

行为：写端调用 write 会阻塞，直到读端读取数据释放管道空间。
说明：管道容量固定（通常为 64KB），写满后无法继续写入，需等待读端消费数据。

4.3 读端正常，写端已关闭

行为：读端 read 会读取剩余数据，读完后返回 0（表示 EOF），不再阻塞。
意义：写端关闭意味着数据传输结束，读端无需继续等待，可正常退出。

4.4 写端正常，读端已关闭

行为：操作系统会通过 13 号信号（SIGPIPE） 终止正在写入的进程。
原因：读端已关闭，写入的数据无人接收，继续写入属于无效操作，系统通过信号强制终止以避免资源浪费。

5. pipe接口使用示例代码

父子进程通过管道单向通信：父进程循环 5 次向管道写入 "I'm a father"（每次间隔 1 秒），子进程读取数据并打印。