【Linux】五种IO模型与非阻塞IO

五种 IO 模型

阻塞 IO: 在内核将数据准备好之前，系统调用会一直等待。所有的套接字，默认都是阻塞方式。阻塞 IO 是最常见的 IO 模型。

非阻塞 IO: 如果内核还未将数据准备好，系统调用仍然会直接返回，并且返回 EWOULDBLOCK 错误码。非阻塞 IO 往往需要程序员以循环的方式反复尝试读写文件描述符，这个过程称为轮询。这对 CPU 来说是较大的浪费，一般只有特定场景下才使用。

信号驱动 IO: 内核将数据准备好的时候，使用 SIGIO 信号通知应用程序进行 IO 操作。

IO 多路转接：虽然从流程图上看起来和阻塞 IO 类似，实际上最核心在于 IO 多路转接能够同时等待多个文件描述符的就绪状态。

异步 IO: 由内核在数据拷贝完成时，通知应用程序（而信号驱动是告诉应用程序何时可以开始拷贝数据）。

小结

任何 IO 过程中，都包含两个步骤：第一是等待，第二是拷贝。而且在实际的应用场景中，等待消耗的时间往往都远远高于拷贝的时间。让 IO 更高效，最核心的办法就是让等待的时间尽量少。

高级 IO 重要概念

在这里，我们要强调几个概念。

1. 同步通信 vs 异步通信（synchronous communication/asynchronous communication）

同步和异步关注的是消息通信机制。

所谓同步，就是在发出一个调用时，在没有得到结果之前，该调用就不返回；但是一旦调用返回，就得到返回值了。换句话说，就是由调用者主动等待这个调用的结果。
所谓异步，则是相反：调用在发出之后，这个调用就直接返回了，所以没有返回结果。换句话说，当一个异步过程调用发出后，调用者不会立刻得到结果；而是在调用发出后，被调用者通过状态、通知来通知调用者，或通过回调函数处理这个调用。

另外，我们回忆在讲多进程多线程的时候，也提到同步和互斥。这里的同步通信和进程之间的同步是完全不相干的概念：

进程 / 线程同步是进程 / 线程之间直接的制约关系。
是为完成某种任务而建立的两个或多个线程，这些线程需要在某些位置上协调他们的工作次序，通过等待、传递信息所产生的制约关系，尤其在访问临界资源的时候。

以后在看到 "同步" 这个词，一定要先搞清楚大背景是什么：这个同步，是同步通信 / 异步通信的同步，还是同步与互斥的同步。

2. 阻塞 vs 非阻塞

阻塞和非阻塞关注的是程序在等待调用结果（消息、返回值）时的状态。

阻塞调用：指调用结果返回之前，当前线程会被挂起，调用线程只有在得到结果之后才会返回。
非阻塞调用：指在不能立刻得到结果之前，该调用不会阻塞当前线程。

3. 理解这四者的关系

其他高级 IO

非阻塞 IO、纪录锁、系统 V 流机制、I/O 多路转接（也叫 I/O 多路复用）、readv 和 writev 函数以及存储映射 IO（mmap），这些统称为高级 IO。我们此处重点讨论的是 I/O 多路转接。

非阻塞 IO

1. fcntl

文件描述符默认是阻塞模式，需通过fcntl函数修改为非阻塞模式，以下是具体实现。

cpp 复制代码

#include <unistd.h>
#include <fcntl.h>

int fcntl(int fd, int cmd, ... /* arg */ );

传入的 cmd 的值不同，后面追加的参数也不相同。fcntl 函数有 5 种功能：

复制一个现有的描述符（cmd=F_DUPFD）。
获得 / 设置文件描述符标记（cmd=F_GETFD 或 F_SETFD）。
获得 / 设置文件状态标记（cmd=F_GETFL 或 F_SETFL）。
获得 / 设置异步 I/O 所有权（cmd=F_GETOWN 或 F_SETOWN）。
获得 / 设置记录锁（cmd=F_GETLK、F_SETLK 或 F_SETLKW）。

我们此处只使用第三种功能 ------ 获取 / 设置文件状态标记，就可以将一个文件描述符设置为非阻塞。

2. 实现函数 SetNoBlock

基于 fcntl，我们实现一个 SetNoBlock 函数，将文件描述符设置为非阻塞：

cpp 复制代码

void SetNoBlock(int fd) {
    int fl = fcntl(fd, F_GETFL);
    if (fl < 0) {
        perror("fcntl");
        return;
    }
    fcntl(fd, F_SETFL, fl | O_NONBLOCK); // O_NONBLOCK：将fd设置为非阻塞
}

使用 F_GETFL 将当前的文件描述符的属性取出来（这是一个位图）。
然后再使用 F_SETFL 将文件描述符设置回去，设置回去的同时，加上一个 O_NONBLOCK 参数。

3. 轮询方式读取标准输入

cpp 复制代码

#include <iostream>  
#include <unistd.h>   
#include <fcntl.h>    
#include <errno.h>    

void SetNoBlock(int fd)
{

    int fl = fcntl(fd, F_GETFL);  // F_GETFL：获取文件状态标志
    if (fl < 0)  
    {
        perror("fcntl");  
        return;
    }
    // 2. 设置文件描述符为非阻塞模式：保留原有标志，添加O_NONBLOCK（非阻塞标志）
    fcntl(fd, F_SETFL, fl | O_NONBLOCK);  // F_SETFL：设置文件状态标志
}

int main()
{
    SetNoBlock(0);

    char buf[1024] = {0}; 
    while (1)
    {
        ssize_t n = read(0, buf, sizeof(buf) - 1);

        if (n > 0) 
        {
            // 去除输入中的换行符（假设输入以'\n'结束），替换为字符串结束符
            buf[n - 1] = 0;  
            std::cout << buf << std::endl;
        }
        else if (n < 0)  // 读取失败（非阻塞模式下常见"暂时无数据"的错误）
        {
            // 区分错误类型：
            // EAGAIN/EWOULDBLOCK：非阻塞模式下无数据可用（资源暂时不可用）
            if (errno == EAGAIN || errno == EWOULDBLOCK)
            {
                std::cout << "数据没有准备好..." << std::endl;
                sleep(1); 
            }
            // EINTR：系统调用被信号中断（如程序运行时收到Ctrl+C等信号）
            else if(errno == EINTR)
            {
                continue;  // 忽略信号中断，继续循环读取
            }
            // 其他错误（如fd无效、权限问题等）
            else
            {
                perror("read");  // 打印具体错误信息
                break;  // 错误无法恢复，退出循环
            }
        }
        else  // n == 0：读取到文件结尾（Linux中Ctrl+D触发此行为）
        {
            break;  // 退出循环，结束程序
        }
    }

    return 0;
}

认识 select 函数

select 是 I/O 多路转接的经典实现，核心用于同时监控多个文件描述符的 "可读 / 可写 / 异常" 就绪状态，避免单 IO 阻塞或非阻塞轮询的 CPU 浪费。

1. select 函数原型

cpp 复制代码

#include <sys/select.h>
#include <sys/time.h>
#include <unistd.h>

// 返回值：就绪的fd数量；0=超时；-1=出错
int select(
    int nfds,                // 监控的最大fd + 1
    fd_set *readfds,         // 监控"可读"的fd集合（NULL=不监控）
    fd_set *writefds,        // 监控"可写"的fd集合（NULL=不监控）
    fd_set *exceptfds,       // 监控"异常"的fd集合（NULL=不监控）
    struct timeval *timeout  // 超时时间（NULL=阻塞，{0,0}=非阻塞）
);

2. 核心操作：fd_set 集合

fd_set 是位图结构（比特位的位置表示fd编号，例如：000...111表示1、2、3文件描述符），需用以下宏操作（类似文件描述符的 "开关"）：

FD_ZERO(&set)：清空集合（所有位设 0）
FD_SET(fd, &set)：将 fd 加入集合（对应位设 1）
FD_CLR(fd, &set)：从集合移除 fd（对应位设 0）
FD_ISSET(fd, &set)：检查 fd 是否就绪（对应位是否为 1）

readfds等参数是输入输出型参数，输入的时候就是需要监测的文件描述符，输出的时候就是就绪的文件描述符。

3. 关键参数简要说明

nfds ：需设置为 "所有监控的文件描述符中的最大值 + 1"。例如监控 0、3、5 时，最大 fd 是 5，故 nfds=6，确保 select 扫描覆盖所有目标。
readfds/writefds/exceptfds ：分别监控 "可读""可写""异常" 事件的集合。调用前用 FD_SET 添加需监控的 fd；返回后，集合中仅保留就绪的 fd。无需监控时传 NULL。
timeout ：控制阻塞时长，类型为 struct timeval（含 tv_sec 秒和 tv_usec 微秒）：
- NULL：一直阻塞，直到有事件就绪。
- {0, 0}：不阻塞，立即返回。
- 其他值：最多阻塞指定时间，超时返回 0。

4. 简单示例：监控标准输入

cpp 复制代码

#include <stdio.h>
#include <sys/select.h>
#include <unistd.h>

int main() {
    fd_set readfds;
    struct timeval timeout = {3, 0};  // 超时3秒

    while (1) {
        FD_ZERO(&readfds);            // 1. 清空集合
        FD_SET(0, &readfds);          // 2. 加入标准输入（fd=0）

        // 3. 调用select监控
        int ready = select(1, &readfds, NULL, NULL, &timeout);
        if (ready < 0) { perror("select"); break; }
        else if (ready == 0) { printf("3秒超时，无输入\n"); continue; }

        // 4. 检查并处理就绪fd
        if (FD_ISSET(0, &readfds)) {
            char buf[100] = {0};
            read(0, buf, sizeof(buf));
            printf("你输入：%s", buf);
        }
    }
    return 0;
}

5. 优缺点简概

优点：跨平台（Linux/Windows）、逻辑简单，适合入门。
缺点：fd 数量限 1024（FD_SETSIZE）、需重复初始化集合、效率随 fd 增多下降。