【Linux】进程等待：wait/waitpid 与僵尸进程治理

前言

用fork创建子进程很简单，但子进程退出后若不管不顾，"僵尸进程" 就会找上门：占 PID、耗资源，甚至让系统无法新建进程。

而进程等待，正是解决这一问题的核心机制 ------ 它不仅能回收子进程资源，还能获取子进程的退出状态（正常结束？被信号终止？）。从wait的基础阻塞等待，到waitpid的精细化控制（指定子进程、非阻塞监听），再到解析status参数的退出信息，这些都是写出健壮 Linux 程序的必备技能。

本文就从僵尸进程的危害讲起，拆解进程等待的原理与系统调用细节，帮你彻底搞定进程的 "优雅收尾"。

⚙️ Linux 进程概念篇

【......】

☃ Linux 进程控制篇

[℡. wait函数介绍](#℡. wait函数介绍)

场景1：wait等待单个子进程（仅回收资源，不关心退出状态）

场景2：wait等待多个子进程（仅回收资源，不关心退出状态）

[小 tip：wait 系统调用的阻塞等待特性](#小 tip：wait 系统调用的阻塞等待特性)

四、waitpid

[℡. waitpid函数介绍](#℡. waitpid函数介绍)

场景1：waitpid等待单个子进程（仅资源回收）

场景2：waitpid等待单个子进程（获取退出状态）

[℡. status参数解析](#℡. status参数解析)

手动解析status

用宏解析status

[问题：父进程为何必须用 wait 获取子进程状态？不能用全局变量吗？](#问题：父进程为何必须用 wait 获取子进程状态？不能用全局变量吗？)

[小 tip：wait/waitpid的核心作用](#小 tip：wait/waitpid的核心作用)

[特殊场景：父进程等待非目标子进程导致 waitpid 失败](#特殊场景：父进程等待非目标子进程导致 waitpid 失败)

一、进程等待是什么？

进程等待，是通过 wait/waitpid 这两个系统调用，实现对子进程进行状态检测与资源回收的功能。

它的核心作用有两点：

1、回收资源：避免子进程退出后成为 "僵尸进程"，占用 PID 等系统资源；

2、状态检测：获取子进程的退出状态（如正常结束、被信号终止等）

二、为什么需要进程等待？

进程等待的必要性可以分为 "必须解决" 和 "可选关注" 两类场景：

1、必须解决：清理僵尸进程，避免资源泄漏

僵尸进程的状态为Z------ 它的数据、代码会被内核自动清理，但 PCB（进程控制块）会残留 PID、退出状态、调度信息等属性，持续占用系统资源，且无法通过kill -9直接杀死。

只有父进程通过进程等待（++当然，如果父进程退出，子进程会成为孤儿进程被系统进程回收++），才能彻底回收 PCB 资源，否则僵尸进程会长期占用 PID、内存，最终导致系统无法创建新进程。

2、可选关注：获取子进程的退出状态

通过进程等待，父进程可以拿到子进程的退出信息（比如是正常完成任务，还是被信号中断），以此判断子进程的任务执行结果 ------ 这一步可根据业务需求选择是否关注，但对需要确保任务可靠性的场景（如后台服务）至关重要。

三、wait

℡. wait函数介绍

wait 函数是 Linux 系统中一类进程控制函数，其作用是让父进程以阻塞方式等待任意一个子进程终止（++不支持指定等待子进程++），同时完成该子进程的资源回收与退出状态获取

cpp 复制代码

#include<sys/types.h>
#include<sys/wait.h>

pid_t wait(int*status);

**返回值：**成功返回被等待进程 pid，失败返回 - 1。

**参数：**输出型参数，获取子进程退出状态，不关心则可以设置成为 NULL

场景1：wait等待单个子进程（仅回收资源，不关心退出状态）

cpp 复制代码

#include <stdio.h>     // printf、perror 函数所需
#include <unistd.h>    // fork、getpid、getppid、sleep 函数所需
#include <sys/wait.h>  // wait 函数所需
#include <stdlib.h>    // exit 函数所需
#include <sys/types.h> // pid_t 类型定义所需（规范写法建议显式包含）
int main()
{
    pid_t id = fork();
    //创建失败
    if(id < 0)
    {
        perror("fork");
        return 1;
    }
    //子进程
    else if(id == 0)
    {
        
        int cnt = 5;
        while(cnt)
        {
            printf("I am child, pid:%d, ppid:%d, cnt: %d\n", getpid(), getppid(), cnt);
            cnt--;
            sleep(1);
            //*p = 100;
        }
        exit(2);
    }
    //父进程
    else
    {
        
        int cnt = 10;
        while(cnt)
        {
            printf("I am father, pid:%d, ppid:%d, cnt: %d\n", getpid(), getppid(), cnt);
            cnt--;
            sleep(1);
        }

        // 目前为止，进程等待是必须的
        pid_t ret = wait(NULL);
        if(ret == id)
        {
            printf("wait success, ret: %d\n", ret);
        }
        sleep(5);
    }

    return 0;
}

wait等待单个子进程

这段代码中，父进程创建子进程后，子进程仅循环 5 次就退出并进入僵尸状态；父进程继续执行自身 10 次循环任务，待自身任务完成后，才调用wait阻塞回收已处于僵尸状态的子进程，最终 "wait success" 标识僵尸进程被成功清理，无资源残留。

（wait参数传NULL，是因为当前场景暂不关注子进程的退出状态，仅需回收子进程资源，传NULL可忽略退出状态信息)

场景2：wait等待多个子进程（仅回收资源，不关心退出状态）

cpp 复制代码

#include <stdio.h>     // printf、perror 函数所需
#include <unistd.h>    // fork、getpid、getppid、sleep 函数所需
#include <sys/wait.h>  // wait 函数所需
#include <stdlib.h>    // exit 函数所需
#include <sys/types.h> // pid_t 类型定义所需（规范写法建议显式包含）

// 定义子进程数量
#define N 5

void RunChild()
{
    int cnt = 5;
    while(cnt)
    {
        printf("I am Child Process, pid: %d, ppid:%d\n", getpid(), getppid());
        sleep(1);
        cnt--;
    }
}

int main()
{
    // 创建N个子进程
    for(int i = 0; i < N; i++)
    {
        pid_t id = fork();
        if(id == 0)
        {
            RunChild();
            exit(0);
        }
        printf("create child process: %d success\n", id); // 父进程打印子进程pid
    }

    sleep(10); // 父进程休眠10秒（模拟自身任务）

    // 等待所有子进程
    for(int i = 0; i < N; i++)
    {
        pid_t id = wait(NULL);
        if(id > 0)
        {
            printf("wait %d success\n", id);
        }
    }

    sleep(5);
    return 0;
}

wait等待多个子进程

这段代码中，父进程创建 5 个子进程后，每个子进程仅循环 5 次就退出并进入僵尸状态；父进程继续执行自身休眠 10 秒的任务，待自身任务完成后，才通过循环调用 wait 阻塞回收已处于僵尸状态的多个子进程，最终 "wait 进程 ID success" 依次标识所有僵尸进程被成功清理，无资源残留。

（wait 参数传 NULL，是因为当前场景暂不关注子进程的退出状态，仅需回收多个子进程的资源，传 NULL 可忽略退出状态信息）

小 tip：wait 系统调用的阻塞等待特性

若子进程处于运行状态、未主动退出，父进程调用wait时会进入阻塞状态 ------ 暂停自身代码执行，持续等待子进程结束；直到有子进程退出，wait才会完成该子进程的资源回收并返回结果，父进程随之恢复执行。

该特性确保父进程能可靠回收子进程资源，避免子进程成为僵尸进程，但也会让父进程暂时 "停滞"，适用于需要严格等待子进程完成的场景。

由于 waitpid 的功能比 wait 更丰富，且完全涵盖了 wait 的所有能力，因此获取退出状态的测试我就不用 wait 来演示了。学会通过 waitpid 获取退出状态后，对应的 wait 用法也就自然掌握了

四、waitpid

℡. waitpid函数介绍

waitpid 函数是 Linux 系统中让父进程灵活等待指定子进程终止，可控制阻塞 / 非阻塞模式、回收资源并获取退出状态的进程控制函数

cpp 复制代码

#include<sys/types.h>
#include<sys/wait.h>

pid_t waitpid(pid_t pid, int *status, int options);

返回值：

**正常返回：**收集到的子进程的进程 ID；

**若设置WNOHANG且无已退出子进程可收集：**返回 0；

调用出错： 返回 - 1，同时errno会被设置以指示错误原因；

参数：

pid：

**pid=-1：**等待任意一个子进程，与wait等效；

**pid>0：**等待进程 ID 与pid相等的子进程。

status：

这是个"输出型参数"，调用wait/waitpid后，操作系统会自动往里面填子进程的退出信息，具体如何用我在后面的++status参数解析++章节进行了详解

options：

**WNOHANG：**非阻塞模式，若pid指定的子进程未结束，函数直接返回 0；若子进程已正常结束，则返回其进程 ID（后面的++非阻塞轮询++章节会进行详解）。

0：阻塞模式，调用waitpid后父进程会暂停执行，直到指定的子进程状态改变（退出 / 被信号终止），再返回子进程 ID。

场景1：waitpid等待单个子进程（仅资源回收）

cpp 复制代码

#include <stdio.h>     // printf、perror 函数所需
#include <unistd.h>    // fork、getpid、getppid、sleep 函数所需
#include <sys/wait.h>  // wait 函数所需
#include <stdlib.h>    // exit 函数所需
#include <sys/types.h> // pid_t 类型定义所需（规范写法建议显式包含）
int main()
{
    // 创建单个子进程
    pid_t id = fork();
    if (id < 0) {  // fork失败的错误处理
        perror("fork");
        return 1;
    } 
    else if (id == 0) {  // 子进程执行逻辑
        int cnt = 5;
        while (cnt)
        {
            // 打印子进程的PID、父进程PID、计数
            printf("I am child, pid:%d, ppid:%d, cnt: %d\n", getpid(), getppid(), cnt);
            cnt--;
            sleep(1);  // 休眠1秒，模拟子进程执行任务
        }
        exit(11);  // 子进程退出，退出码为11
    } 
    else {  // 父进程执行逻辑
        int cnt = 5;
        while (cnt)
        {
            // 打印父进程的PID、父进程的父进程（bash）PID、计数
            printf("I am father, pid:%d, ppid:%d, cnt: %d\n", getpid(), getppid(), cnt);
            cnt--;
            sleep(1);  // 休眠1秒，模拟父进程执行任务
        }

        // 使用waitpid等待子进程（-1表示等待任意子进程，等价于wait；0表示阻塞等待）
        pid_t ret = waitpid(-1, NULL, 0);
        if (ret == id) {  // 确认等待的是目标子进程
            printf("wait success, ret: %d\n", ret);
        }

        sleep(5);  // 父进程休眠5秒，观察后续状态
    }
    return 0;
}

waitpid等待单个子进程

这段代码中，父进程创建子进程后，父子进程会并发执行各自的 5 次循环任务；子进程完成循环后退出并短暂进入僵尸状态，父进程完成自身任务后，调用waitpid(-1, NULL, 0)阻塞回收该僵尸子进程，最终 "wait success" 标识子进程资源被成功清理，无残留。

（waitpid参数传-1表示等待任意子进程（等价于wait），传NULL是因为当前场景仅需回收资源、暂不关注子进程退出状态，传0表示阻塞等待子进程退出）

场景2：waitpid等待单个子进程（获取退出状态）

cpp 复制代码

#include <stdio.h>     // printf、perror 函数所需
#include <unistd.h>    // fork、getpid、getppid、sleep 函数所需
#include <sys/wait.h>  // wait 函数所需
#include <stdlib.h>    // exit 函数所需
#include <sys/types.h> // pid_t 类型定义所需（规范写法建议显式包含）
int main()
{
    pid_t id = fork(); // 创建子进程
    if (id < 0) {      // fork失败的错误处理
        perror("fork");
        return 1;
    } 
    else if (id == 0) { // 子进程执行逻辑
        int cnt = 5;
        while (cnt)
        {
            printf("I am child, pid:%d, ppid:%d, cnt: %d\n", getpid(), getppid(), cnt);
            cnt--;
            sleep(1);
        }
        exit(1); // 子进程退出，退出码设为1
    } 
    else { // 父进程执行逻辑
        int cnt = 5;
        while (cnt)
        {
            printf("I am father, pid:%d, ppid:%d, cnt: %d\n", getpid(), getppid(), cnt);
            cnt--;
            sleep(1);
        }

        int status; // 用于接收子进程退出状态
        // 指定等待id对应的子进程，阻塞模式，并接收退出状态到status
        pid_t ret = waitpid(id, &status, 0);
        if (ret == id) {
            // 直接打印status，观察其值（并非预期的1）
            printf("wait success, ret: %d, status: %d\n", ret, status);
        }

        sleep(5);
    }
    return 0;
}

waitpid获取单个子进程退出状态

这段代码中，父进程创建子进程后，父子进程并发执行各自的 5 次循环任务；子进程完成循环后以退出码 1 终止，父进程完成自身任务后，通过waitpid阻塞等待子进程并接收其退出状态，最终打印出等待结果与状态值。

执行后可以看到，打印的status值是 256 而非预期的 1------ 这是因为waitpid接收的status并非直接存储退出码，而是一个复合格式的整数 （包含退出码、终止信号等信息），需要通过WEXITSTATUS(status)等宏才能正确解析出子进程实际的退出码。

℡. status参数解析

wait和waitpid都有一个status参数，该参数是输出型参数，由操作系统自动填充：

若传递NULL，表示不关心子进程的退出状态信息；

若传递有效的变量地址，操作系统会将子进程的退出信息（退出码、终止信号等）填充到该变量中。

但status不能简单当作整数看待，而要以 "位图" 的形式解析（通常只需关注低 16 比特位）：

低 8 比特位（0~7 位）：存储子进程的终止信号（若子进程是被信号终止的）；

高 8 比特位（8~15 位）：存储子进程的退出码（若子进程是正常退出的）。

以之前输出的status=256为例：256 对应的二进制是100000000，其高 8 比特位（第 8 位）为 1，低 8 比特位为 0------ 这意味着子进程是正常退出的，退出码为 1（对应高 8 位的值）。

core dump 标志是status位图中标识子进程终止时是否产生核心转储文件的标记位，用于调试进程崩溃原因；我们先不关注这个标志位，只需聚焦 "退出码" 和 "终止信号" 这两个核心信息即可。

手动解析status

下述演示代码我只给关键部分，只是修改了waitpid场景2的获取退出状态部分

通过++手动位运算解析waitpid获取的status值++，执行结果显示exit sig: 0、exit code: 1，完全符合预期：低 7 位（status&0x7F）为 0，说明子进程未被信号终止、属于正常退出；将status右移 8 位后取低 8 位（(status>>8)&0xFF）得到 1，与子进程exit(1)设置的退出码一致，验证了手动解析status位图的逻辑是正确的。

用宏解析status

但是实际中我们是用宏获取退出码和终止信号的

通过waitpid获取子进程退出状态status，再用宏解析其退出信息：先通过WIFEXITED(status)判断子进程是否正常退出，若是则用WEXITSTATUS(status)提取退出码；若不是则通过WIFSIGNALED(status)判断是否被信号终止，并用WTERMSIG(status)提取信号编号。

从运行结果看，子进程执行后 "正常退出，退出码：1"，说明代码中宏的逻辑生效 ------ 子进程是正常结束的，且退出码为 1，和代码的预期解析逻辑完全一致。

问题：父进程为何必须用 wait 获取子进程状态？不能用全局变量吗？

因为进程具有独立性，父子进程地址空间独立，全局变量是各自副本，子进程修改后父进程拿不到。

而且父进程不能直接访问子进程的内核数据（操作系统不允许直接碰内核数据，就像外校校长不能直接找你参赛，得经本校校长同意），wait是操作系统提供的 "合法接口"------ 帮父进程从内核里取子进程状态，这是唯一可靠的方式。

小 tip：`wait/waitpid`的核心作用

从内核中读取子进程的 exitcode（退出码）和 sigcode（终止信号）等退出信息；

将子进程的 "僵尸状态（Z）" 修改为 "消亡状态（X）"，释放其占用的内核资源。

特殊场景：父进程等待非目标子进程导致 waitpid 失败

cpp 复制代码

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/wait.h>

int main()
{
    // 创建子进程
    pid_t id = fork();
    if (id < 0)
    {
        perror("fork");
        return 1;
    }
    else if (id == 0)
    {
        // 子进程逻辑
        int cnt = 5;
        while (cnt)
        {
            printf("I am child, pid:%d, ppid:%d, cnt: %d\n", getpid(), getppid(), cnt);
            cnt--;
            sleep(1);
        }
        exit(1); // 子进程退出，退出码1
    }
    else
    {
        // 父进程逻辑
        int cnt = 5;
        while (cnt)
        {
            printf("I am father, pid:%d, ppid:%d, cnt: %d\n", getpid(), getppid(), cnt);
            cnt--;
            sleep(1);
        }

        // 等待子进程（故意传错id+4，触发特殊场景）
        int status;
        pid_t ret = waitpid(id+4, &status, 0);
        if (ret == id)
        {
            // 用宏解析退出状态
            if(WIFEXITED(status))
            {
                printf("正常退出,退出码：%d\n",WEXITSTATUS(status));
            }
            else if(WIFSIGNALED(status))
            {
                printf("异常退出,终止信号：%d\n",WTERMSIG(status));
            }
        }
        else
        {
            printf("该子进程不是我要等待的进程，wait fail\n");
        }
    }

    sleep(5);
    return 0;
}

父进程创建子进程后，故意传入错误的子进程 PID 调用waitpid，因实际退出的子进程 PID 与目标 PID 不符，导致等待失败，触发 "该子进程不是我要等待的进程，wait fail" 提示，证明waitpid仅能正确获取指定 PID 子进程的状态

五、waitpid非阻塞轮询

【阻塞/非阻塞等待小故事】

你是父进程 ，小张是子进程，你们要合作完成一项任务 ------ 你负责统筹，小张负责执行具体工作，而 "打电话沟通" 就是你们的协作方式（对应操作系统的进程通信）。

场景 1：阻塞等待

你给小张打了个电话，问她 "任务做完没？"。电话拨通后，你啥也不干，就举着听筒等她回复 ------ 哪怕手头还有其他报告要写，也全放着不管。直到小张说 "ok，任务做完了"，你才挂掉电话，继续处理后续的收尾工作。这就是阻塞等待 ：父进程调用wait/waitpid后，暂停自己的所有工作，直到子进程退出才恢复执行。

场景 2：非阻塞轮询

你给小张打了个电话，问她 "任务做完没？"。小张说 "还在弄，等等哈"，你没挂着电话干等，而是先挂掉，转身去写自己的报告。过了 10 分钟，你忙完报告里的一段内容，又给小张打了个电话问进度；她没完成，你再挂掉去处理别的事...... 循环这个 "打电话→挂掉干自己事→再打电话" 的过程，直到小张回复 "ok"。这就是非阻塞轮询 ：父进程调用waitpid(..., WNOHANG)后，不会暂停工作，而是 "问一句就走"，一边轮询子进程状态，一边处理自己的任务。

【非阻塞轮询等待演示】

cpp 复制代码

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/wait.h>

int main()
{
    // 创建子进程
    pid_t id = fork();
    if (id < 0)
    {
        perror("fork error"); // 打印fork失败信息
        return 1;
    }
    else if (id == 0)
    {
        // 子进程逻辑：模拟执行任务（睡眠5秒后退出）
        int cnt = 5;
        while (cnt)
        {
            printf("子进程(PID：%d)正在执行，剩余%d秒...\n", getpid(), cnt);
            cnt--;
            sleep(1);
        }
        exit(10); // 子进程正常退出，退出码设为10
    }
    else
    {
        // 父进程：非阻塞轮询等待子进程
        int status = 0;
        while (1)
        {
            // 核心：WNOHANG开启非阻塞模式，0为阻塞模式
            pid_t ret = waitpid(id, &status, WNOHANG);
            
            if (ret > 0)
            {
                // 成功等待到子进程退出
                printf("父进程成功等待子进程(PID：%d)\n", ret);
                if (WIFEXITED(status))
                {
                    // 子进程正常退出，解析退出码
                    printf("子进程正常退出，退出码：%d\n", WEXITSTATUS(status));
                }
                else
                {
                    // 子进程被信号终止，解析终止信号
                    printf("子进程异常退出，终止信号：%d\n", WTERMSIG(status));
                }
                break; // 等待完成，退出轮询
            }
            else if (ret < 0)
            {
                // 等待失败（无待等待的子进程）
                printf("等待子进程失败！\n");
                break;
            }
            else // ret == 0
            {
                // 子进程未退出，父进程继续执行自身任务
                printf("子进程尚未退出，父进程执行其他任务...\n");
                sleep(1); // 模拟父进程的其他工作
            }
        }
    }
    return 0;
}

父进程fork出子进程（子进程睡眠 5 秒后退出），父进程用waitpid+WNOHANG开启非阻塞模式，轮询子进程状态 ------ 子进程未退出时父进程可执行自身任务，退出后用WIFEXITED解析退出码；WNOHANG是实现 "边轮询边工作" 的核心。

cpp 复制代码

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/wait.h>

#define TASK_NUM 10

// 重命名函数指针
typedef void(*task_t)();
// 函数指针数组
task_t tasks[TASK_NUM];

// 任务1
void task1()
{
    printf("这是一个执行打印日志的任务，pid：%d\n", getpid());
}

// 任务2
void task2()
{
    printf("这是一个执行检测网络健康状态的一个任务，pid：%d\n", getpid());
}

// 任务3
void task3()
{
    printf("这是一个进行绘制图形界面的任务，pid：%d\n", getpid());
}

// 任务的管理代码
void InitTask()
{
    for(int i = 0; i < TASK_NUM; i++) tasks[i] = NULL;
    AddTask(task1);
    AddTask(task2);
    AddTask(task3);
}

// 添加任务
int AddTask(task_t t)
{
    int pos = 0;
    
    for(; pos < TASK_NUM; pos++) 
    {
        //当前位置为空就跳出循环
        if(!tasks[pos]) break;
    }
    
    //数组满了，添加任务失败
    if(pos == TASK_NUM) return -1;

    //添加任务
    tasks[pos] = t;
    return 0;
}

// 执行任务
void ExecuteTask()
{
    for(int i = 0; i < TASK_NUM; i++)
    {
        //为空就跳过，遇到不为空才执行
        if(!tasks[i]) continue;
        tasks[i]();
    }
}

int main()
{
    //初始化任务数组
    InitTask();

    pid_t id = fork();
    if(id < 0)
    {
        perror("fork");
        return 1;
    }
    else if(id == 0)
    {
        int cnt = 5;
        while(cnt)
        {
            printf("I am child, pid:%d, cnt: %d\n", getpid(), cnt);
            cnt--;
            sleep(1);
        }
        exit(11);
    }
    else
    {
        int status = 0;
        while(1)
        {
            pid_t ret = waitpid(id, &status, WNOHANG);
            if(ret > 0)
            {
                if(WIFEXITED(status))
                {
                    printf("进程是正常完成的，退出码:%d\n", WEXITSTATUS(status));
                }
                else
                {
                    printf("进程出异常了\n");
                }
                break;
            }
            else if(ret < 0)
            {
                printf("wait failed\n");
                break;
            }
            else
            {
                //执行任务并休眠0.5秒，然后再去查看子进程是否执行结束
                ExecuteTask();
                usleep(500000);
            }
        }
    }
    return 12;
}

这段代码构建了 "任务模块 + 进程管理" 的完整逻辑：先通过函数指针类型task_t定义任务数组，借助InitTask初始化、AddTask添加task1/task2/task3三类任务，再通过ExecuteTask遍历执行数组内所有非空任务；进程层面，父进程通过fork创建子进程执行 5 秒倒计时任务，同时以waitpid(..., WNOHANG)实现非阻塞等待 ------ 子进程运行期间，父进程反复调用ExecuteTask执行自身任务（打印日志、检测网络、绘制界面），子进程退出后父进程解析其退出码并终止，最终实现 "父进程边非阻塞等待子进程、边并行执行自有任务" 的核心效果。

【非阻塞轮询回收子进程的核心定位】

非阻塞等待的核心目的是 "回收子进程（避免僵尸进程）"，父进程同时执行的任务只是 "附带轻量级工作"------ 这类任务需是耗时短、资源占用少的操作（比如打印日志、检测状态）；若在轮询中执行 "拷贝 100G 数据" 这类重任务，会大幅延迟子进程的回收时机，甚至导致僵尸进程长期占用资源，违背了非阻塞等待 "及时回收" 的设计初衷。