C 进阶(13) - 高级I/O

非阻塞I/O

非阻塞I/O（Non-blocking I/O）是 Linux 系统编程中提升程序并发性和响应速度的核心技术。在默认情况下，Linux 的套接字和文件描述符都是阻塞的，这意味着当进程调用 read()、recv() 或 accept() 等系统调用时，如果数据尚未就绪，当前线程就会被挂起（阻塞），直到内核准备好数据并复制到用户空间后才会返回。

而非阻塞I/O的核心机制在于：当进程发起读/写操作时，如果内核中的数据尚未准备就绪，系统不会让调用进程阻塞等待，而是立即返回一个错误码 （通常为 EAGAIN 或 EWOULDBLOCK）。这样，进程就可以利用这段等待时间去处理其他任务，从而大幅提高系统的吞吐量与响应性。。

🛠️ 如何设置非阻塞模式

在 C 语言开发中，通常使用 fcntl() 函数动态修改文件描述符的属性来开启非阻塞模式。其标准做法是先获取当前标志位，按位或上 O_NONBLOCK 后再写回内核：

复制代码

#include <fcntl.h>

int flags = fcntl(sockfd, F_GETFL, 0); // 获取当前文件状态标志
if (flags == -1) {
    perror("fcntl getfl");
} else {
    flags |= O_NONBLOCK; // 加入非阻塞标志
    if (fcntl(sockfd, F_SETFL, flags) == -1) {
        perror("fcntl setfl");
    }
}

⚙️ 异常处理策略

在非阻塞模式下，读写操作的返回值处理变得至关重要。开发者必须正确识别内核返回的错误码：

EAGAIN / EWOULDBLOCK ：这表示资源暂时不可用（例如没有数据可读或写缓冲区已满），但这不是严重的错误。程序应继续监听该文件描述符的可读/可写事件，稍后再次尝试操作。
EINTR：表示系统调用被信号中断，可以安全地重试。
其他错误（如 EBADF、ECONNRESET）：属于真实错误，通常需要关闭连接并清理相关资源。

💡 核心应用场景与演进

非阻塞I/O在实际工程中极少单独使用（因为需要不断主动轮询内核，会占用大量CPU资源），它通常是高性能网络架构的基础组件：

结合 I/O 多路复用（epoll） ：这是目前高并发服务器（如 Nginx、Redis）的主流方案。通过 epoll_wait 监控多个非阻塞的文件描述符，只有当内核通知某个套接字"有数据到达"时，程序才去执行非阻塞读取，完美避免了无效轮询。
边缘触发（ET）模式 ：在使用 epoll 的边缘触发模式时，必须将套接字设为非阻塞。当事件触发时，程序必须在一个循环中反复调用 read()，直到返回 EAGAIN 为止，以确保一次性耗尽内核缓冲区的数据，防止事件丢失。
异步 I/O（io_uring）：作为 Linux 5.1+ 引入的最新高性能接口，它真正消除了系统调用的阻塞开销，通过共享内存队列实现零拷贝，适合对极致性能有要求的数据库或代理服务器场景。

记录锁

在 Linux 和 Unix 系统编程中，记录锁（Record Locking）是 fcntl() 函数提供的一种用于进程间同步的机制。尽管名为"记录锁"，但它在内核层面实际上是对文件的某个字节范围进行加锁，因此更准确的术语应该是"字节范围锁"（Byte-range locking）。

以下是关于记录锁的核心机制、结构体参数及使用规则的详细解析：

1. 核心控制结构体

使用记录锁时，必须通过一个指向 struct flock 结构体的指针来传递参数。该结构体定义了锁的类型及作用范围：

复制代码

struct flock {
    short l_type;    // 锁类型：F_RDLCK(读锁)、F_WRLCK(写锁)、F_UNLCK(解锁)
    short l_whence;  // 偏移基准：SEEK_SET(文件开头)、SEEK_CUR(当前指针)、SEEK_END(文件末尾)
    off_t l_start;   // 锁区域的起始偏移量（相对于 l_whence）
    off_t l_len;     // 锁区域的长度（0 表示从 l_start 一直锁定到文件末尾）
    pid_t l_pid;     // 持有冲突锁的进程ID（仅在 F_GETLK 命令下由内核返回，设置锁时忽略）
};

2. 三种操作命令 (cmd)

在调用 fcntl(int fd, int cmd, struct flock *lock) 时，针对记录锁主要有三个命令：

F_SETLK ：尝试获取或释放锁。如果此时有其他进程持有冲突的锁，该调用会立即失败并返回 -1（errno 被设为 EACCES 或 EAGAIN），而不会阻塞等待。
F_SETLKW ：功能与 F_SETLK 相同，但字母 "W" 代表 Wait（等待）。如果遇到冲突锁，调用线程会进入睡眠阻塞状态，直到锁被释放或捕获到信号为止。此外，内核在使用此命令时会检测死锁情况。
F_GETLK ：用于测试是否存在会阻止当前进程加锁的现有锁。如果不存在冲突锁，内核会将 l_type 设置为 F_UNLCK；如果存在冲突，内核会将持有该冲突锁的进程 PID 等信息写入该结构体中。

3. 锁的兼容性规则

记录锁分为共享读锁（F_RDLCK）和独占写锁（F_WRLCK），其基本互斥规则如下：

无锁状态：允许添加读锁或写锁。
已有读锁：允许多个进程同时对同一区域加读锁（读-读兼容）；但拒绝任何新的写锁请求。
已有写锁：拒绝任何新的读锁或写锁请求（写-读、写-写均互斥）。

需要注意的是，这些规则仅适用于不同进程之间的锁请求。如果同一个进程对已经加锁的区域再次申请锁，新锁会直接覆盖老锁。

4. 锁的生命周期与继承性

自动释放：当持有锁的进程终止时，与该文件关联的所有锁都会被内核自动删除。
fork() 继承 ：子进程不会继承父进程的锁。即使子进程继承了父进程的文件描述符，它也不拥有该锁的控制权。
exec() 行为 ：执行 exec 系列函数后，如果文件描述符设置了 FD_CLOEXEC 标志，锁会被自动释放。

5. 实际应用场景

记录锁常用于解决多进程并发访问同一文件时的竞态条件问题。例如在打印假脱机处理系统中，多个进程需要读取并修改同一个序列号文件。如果不加锁，进程间的交叉读写会导致序号混乱；而通过在"读取-修改-写回"的原子操作区间内施加独占写锁，可以确保任意时刻只有一个进程能够操作该文件区域，从而保证数据的准确性。

STREAMS

STREAMS 是 UNIX System V 及许多后续 UNIX 版本（如 Solaris）中采用的一种用于构建内核设备驱动程序和网络协议栈的内核级机制。

它允许应用程序动态地组装驱动程序代码的管道，为字符输入/输出定义了标准接口，支持模块化、可移植的开发以及高性能网络服务的集成。以下是其核心架构与特性的详细解析：

🏗️ STREAMS 的核心架构

一个"流"（Stream）本质上是用户空间进程与内核空间 STREAMS 驱动程序之间的全双工双向数据传输路径。一个流由以下三个部分组成：

流头（Stream Head） ：提供与用户进程的接口，处理相关的系统调用（如 read(), write()）。
流模块（Modules）：位于流头和驱动端之间，可以有零个或多个。它们负责处理在两者之间传输的数据（例如进行数据压缩、加密或终端输入编辑）。
驱动程序（Driver）：处于流的末端，负责控制外部 I/O 设备或提供内部软件驱动服务。

每个组件都包含一对队列（读队列和写队列），数据通过消息传递在队列之间传输。

⚙️ 关键机制与特性

消息传递与控制：STREAMS 通过消息的形式传递数据，分为用户数据、协议控制信息及高优先级控制信息三类。
流控制（Flow Control）：为了防止相邻模块的队列溢出，支持流控制的队列会缓冲消息。当没有足够的缓冲区空间时，队列不会接受新消息，并通过控制消息交换来调节流量。
高级进程间通信（IPC） ：基于 STREAMS 的管道是一个双向（全双工）管道，普通 UNIX 管道则是半双工的。此外，STREAMS 管道可以通过 fattach() 函数赋予文件系统中的名字，从而让不相关的进程也能访问该管道，突破了传统 FIFO 单向通信的限制。

📉 技术现状与发展趋势

尽管 STREAMS 在历史上被 Novell ODI 和微软 NDIS 等框架借鉴，但在现代操作系统发展中已逐渐边缘化：

Solaris 的演进：在 Solaris 8 中，STREAMS 框架得到了增强，优化了实时进程优先级机制，并强制符合 DDI 接口规范以提升稳定性。
Linux 的现状：随着 Linux 的兴起和 Socket 接口的普及，STREAMS 因其设计复杂度较高而被列为过时标准。在《UNIX系统编程》等权威文献的新版中，相关内容已被移除。

I/O 多路转接

I/O 多路转接（也称为 I/O 多路复用，I/O Multiplexing）是 Linux 系统编程中实现高并发网络服务器的核心技术。它允许单个线程或进程同时监视多个文件描述符（如网络套接字、管道等），并在其中任意一个变得可读、可写或发生异常时得到通知。

🎯 为什么需要 I/O 多路转接？

在传统的阻塞 I/O 模型中，每个 I/O 操作都会阻塞当前线程直到完成。如果需要处理大量连接，通常需要为每个连接分配独立的线程或进程，这会导致极大的资源消耗和频繁的上下文切换。

I/O 多路转接通过单线程监控多个 I/O 流，仅在 I/O 就绪时触发操作，避免了阻塞和资源浪费。其核心目标是用最小的资源开销实现高并发 I/O 处理，尤其适用于 Web 服务器、实时通信系统等场景。

⚙️ 底层工作原理

当应用程序调用 I/O 多路转接函数（如 select 或 epoll_wait）时，进程会被阻塞在内核态，等待事件的发生。内核会持续监测这些文件描述符对应的内存缓冲区状态：

读缓冲区：如果有数据到达，该文件描述符变为"读就绪"。
写缓冲区：如果写缓冲区有剩余容量可以写入数据，该文件描述符变为"写就绪"。

一旦检测到有一个或多个文件描述符就绪，进程的阻塞就会被解除，内核将这些已就绪的文件描述符返回给应用层。此时程序再去调用 read() / recv() 或 write() / send() 进行实际的 I/O 操作，由于数据已经准备就绪，这些读写操作将不会导致程序再次阻塞。

🔧 三大主流机制对比

Linux 提供了三种常见的 I/O 多路转接方案，它们的演进体现了性能优化的过程：

1. select

这是最传统且跨平台（支持 Linux、Mac、Windows）的机制。它使用位图（fd_set）来管理文件描述符集合。每次调用时，内核都需要对所有被监视的描述符进行线性遍历（轮询），以检查是否有事件发生。因此，随着连接数增加，其时间复杂度呈 O(n) 增长，效率逐渐下降。

2. poll
poll 的出现是为了解决 select 的文件描述符数量限制问题，但其底层依然是暴力的线性遍历，因此在处理大批量句柄时效率依然不高。

3. epoll (Linux 特有)
epoll 是 Linux 2.6 内核下性能最好的 I/O 就绪通知方法，专为处理大规模并发连接而设计。它的核心优势在于：

高效的数据结构：内核内部使用红黑树存储所有被监视的文件描述符，查询和插入的时间复杂度仅为 O(log n)。
事件驱动与回调机制：它不再采用轮询，而是基于回调。只有当网卡数据到达并通过硬件中断触发协议栈，使某个 fd 就绪时，内核才会将其加入就绪队列。
极低的检测开销 ：当用户调用 epoll_wait 时，只需判断就绪队列是否为空即可，时间复杂度达到 O(1)，能够直接返回活跃的事件列表，彻底避免了无效遍历。

在现代高性能网络框架（如 Nginx、Redis）中，通常会结合 Reactor 事件驱动模式来封装 epoll，从而轻松应对数万甚至数十万级别的并发连接。

异步I/O

异步 I/O（Asynchronous Input and Output）是计算机输入输出模型中性能最高、并发能力最强的一种机制。在传统的同步 I/O 模型中，线程发起 I/O 操作后必须进入等待状态直到完成；而在异步 I/O 模型中，调用者在发起请求后会立即返回并继续执行其他任务，待系统自动执行完毕后再通过信号或回调机制通知进程完成状态。

⚙️ 核心工作原理

异步 I/O 是真正意义上的"全程非阻塞"。当应用程序发起一个异步 I/O 操作（例如调用 aio_read）时，内核会立即返回控制权给应用程序，随后由内核在后台独立完成等待数据就绪 以及将数据从内核拷贝到用户空间缓冲区的全部流程。当整个 I/O 操作彻底完成后，内核才会通过信号或回调函数主动通知应用程序去处理结果。

📊 五种 I/O 模型核心对比

为了更直观地理解异步 I/O 的定位，我们可以将其与其他四种经典 I/O 模型进行对比：

模型	等待数据阶段	数据复制阶段	CPU利用率	并发能力
阻塞 I/O	阻塞	阻塞	低	差
非阻塞 I/O	非阻塞（轮询）	阻塞	中	较差
I/O 多路复用	阻塞（监听多路）	阻塞	较高	优秀
信号驱动 I/O	非阻塞（信号通知）	阻塞	较高	一般
异步 I/O	非阻塞	非阻塞	最高	优秀

从上表可以看出，I/O 多路复用虽然在数据复制阶段依然会发生阻塞，但其在性能和开发复杂度之间取得了极佳平衡，是目前高并发网络服务的主流选择。而异步 I/O 是唯一在两个阶段均不阻塞的模型，实现了计算与 I/O 的完全并行。

🛠️ 主流实现与技术演进

由于不同操作系统对原生异步 I/O 的支持程度差异较大，其具体实现方式也有所不同：

Windows IOCP：基于"完成端口（I/O Completion Port）"的高性能异步 I/O 模型，是 Windows 下高性能服务器的主流选择。
Linux AIO (libaio)：Linux 早期的原生异步接口，但存在仅支持 O_DIRECT 模式、无法与缓冲区缓存协同工作等限制，且在小文件 I/O 场景下性能反而不如同步 I/O。
现代框架 io_uring：这是 Linux 5.1+ 引入的革命性异步 I/O 框架。它通过提交队列（SQ）和完成队列（CQ）两个环形缓冲区，实现了用户态与内核态的高效零拷贝通信。相比传统 epoll 模型，io_uring 大幅减少了系统调用次数，显著提升了吞吐量并降低了延迟。
高级语言封装：在现代应用层开发中，开发者通常直接使用语言层面的异步库来简化编程，例如 Python 的 asyncio、JavaScript 的 Node.js 事件循环以及 Java 的 NIO2 等。

💡 优缺点与应用场景

优点：CPU 利用率达到极致，能够同时发起海量 I/O 操作而不产生线程阻塞，扩展性极强。
缺点：编程逻辑极其复杂，需要处理复杂的异步回调和异常捕获；跨平台 API 差异大，调试和维护成本极高。

因此，在实际工程实践中，除非是对响应速度和性能要求极致的场景（如高性能数据库系统、高速网络存储、金融交易撮合等），否则日常高并发服务开发通常会优先选用 I/O 多路复用模型。

readv 和 writev函数

readv 和 writev 是 Linux/UNIX 系统编程中用于实现分散/聚集 I/O（Scatter-Gather I/O） ，也称为**向量 I/O（Vector I/O）**的高级系统调用。它们允许程序在一次函数调用中，对多个不连续的内存缓冲区进行读取或写入操作。

📜 核心函数原型与结构体

这两个函数定义在 <sys/uio.h> 头文件中，其标准原型如下：

复制代码

#include <sys/uio.h>

ssize_t readv(int fd, const struct iovec *iov, int iovcnt);
ssize_t writev(int fd, const struct iovec *iov, int iovcnt);

其中，描述内存缓冲区的核心数据结构为 struct iovec：

复制代码

struct iovec {
    void   *iov_base; // 指向数据缓冲区的起始地址
    size_t  iov_len;  // 该缓冲区的长度（字节数）
};

⚙️ 工作机制详解

readv（分散输入 / Scatter Read） ：从文件描述符 fd 中读取一段连续的数据流，然后按照 iovec 数组的顺序，依次将数据"分散"填充到各个缓冲区中。内核总是先填满 iov[0]，再填充 iov[1]，以此类推。
writev（聚集输出 / Gather Write） ：将多个分散在不同内存区域的数据块，"聚集"起来一次性写入目标文件描述符 fd 中。数据严格按照 iov 数组的先后顺序被收集并发送。

💡 核心优势与应用场景

相比于传统的多次调用 read() 或 write()，使用 readv/writev 具有以下显著优势：

减少系统调用开销：将多次用户态与内核态的切换合并为一次，大幅降低了上下文切换带来的性能损耗。
避免不必要的数据拷贝：不需要为了凑齐一块完整的数据而先将多个小缓冲区手动拼接（memcpy）到一个大缓冲区中，直接由内核按序操作，实现了类似"零拷贝"的高效传输。
原子性保障：对于普通文件或套接字，这是一次原子的 I/O 操作，避免了在多进程共享同一文件偏移量时发生数据交错的风险。

典型应用场景包括：

网络协议处理 ：例如在 HTTP 服务器中，响应报文通常包含"响应行+响应头"和"响应体（如文件内容）"。这两部分往往位于不同的内存空间，使用 writev 可以一次性将其发出。
结构化数据读写：将数据库记录、日志信息（时间戳、级别、消息）等自然分段的数据批量写入磁盘。

⚠️ 关键注意事项

返回值处理 ：成功时返回实际读/写的总字节数；出错返回 -1 并设置 errno。在网络流式套接字中，由于 TCP 流的无边界特性，单次调用可能无法处理完所有数据，因此通常需要配合循环来确保数据传输完成。
数量限制 ：iovcnt（即数组元素个数）不能超过系统定义的 IOV_MAX。在 Linux 系统中，该值通常为 1024。
非阻塞模式 ：如果在非阻塞模式下调用且当前没有数据可读或写缓冲区已满，函数会立即返回 -1，并将 errno 设置为 EAGAIN 或 EWOULDBLOCK。

readn和writen函数

在 Linux 系统编程，尤其是网络套接字（Socket）编程中，readn 和 writen 是两个极其重要的自定义封装函数。它们的核心作用是确保能够精确地读取或写入指定数量（N个字节）的数据。

💡 为什么需要 readn 和 writen？

标准的系统调用 read() 和 write() 在处理管道、FIFO、终端以及网络设备（如 TCP Socket）时，存在一个典型的"部分读写"特性：

部分读（Short Read） ：一次 read() 操作返回的字节数可能少于请求的数量，即使还没到达文件末尾。这通常是因为内核接收缓冲区中的数据量不足，并不是错误。
部分写（Short Write） ：一次 write() 操作返回的字节数也可能少于指定的输出字节数。例如在内核发送缓冲区已满、下游模块流量控制限制或非阻塞 I/O 模式下，操作系统只会将能容纳的数据拷贝进缓冲区并立即返回。

为了解决这个问题，避免程序员手动编写复杂的循环逻辑，通常会封装出 readn 和 writen。这两个函数内部通过循环反复调用底层的 read 或 write，直到成功传输了 N 个字节，或者遇到不可恢复的错误为止。

⚙️ 核心实现原理与代码示例

以下是基于经典 UNIX 网络编程（UNP）风格的实现源码：

复制代码

#include <unistd.h>
#include <errno.h>

/* 从文件描述符 fd 中精确读取 n 个字节 */
ssize_t readn(int fd, void *ptr, size_t n) {
    size_t nleft = n;       // 剩余需要读取的字节数
    ssize_t nread;          // 单次 read 实际读取的字节数
    char *buf = (char *)ptr;

    while (nleft > 0) {
        if ((nread = read(fd, buf, nleft)) < 0) {
            // 如果是因为信号中断导致的错误，重试
            if (errno == EINTR) 
                continue;    
            else             
                return -1;   // 发生其他真实错误，直接返回 -1
        } else if (nread == 0) {
            break;           // 遇到 EOF（对端关闭连接），退出循环
        }
        nleft -= nread;      // 更新剩余字节数
        buf += nread;        // 移动缓冲区指针到下一个未写入的位置
    }
    return (n - nleft);      // 返回已成功读取的总字节数
}

/* 向文件描述符 fd 中精确写入 n 个字节 */
ssize_t writen(int fd, const void *ptr, size_t n) {
    size_t nleft = n;       // 剩余需要写入的字节数
    ssize_t nwritten;       // 单次 write 实际写入的字节数
    const char *buf = (const char *)ptr;

    while (nleft > 0) {
        if ((nwritten = write(fd, buf, nleft)) <= 0) {
            // 处理非阻塞模式下的 EAGAIN/EWOULDBLOCK 或信号中断 EINTR
            if (nwritten < 0 && (errno == EINTR || errno == EAGAIN))
                continue;
            else
                return -1;   // 发生真实错误，直接返回 -1
        }
        nleft -= nwritten;   // 更新剩余字节数
        buf += nwritten;     // 移动缓冲区指针
    }
    return n;                // 全部写入成功，返回 n
}

🔍 关键细节解析

异常处理策略 ：在循环中，如果遇到 EINTR（被信号中断），函数会安全地重新发起系统调用；对于 writen，在非阻塞 I/O 场景下还会特别处理 EAGAIN 错误码。
返回值设计 ：当读取过程中提前遇到 EOF 但已经成功读取了部分数据时，readn 不会返回错误，而是返回已读取的实际字节数。这种设计赋予了外层调用者处理数据的灵活性。
应用场景：它们广泛应用于解决网络通信中的"粘包"问题、处理应用层固定长度字段协议，以及在进程间通信（IPC）中确保数据块的完整性。

需要注意的是，readn 和 writen 并非 POSIX 标准的一部分，它们是开发者为了简化业务逻辑而自行定义的辅助工具函数。

存储映射IO

存储映射 I/O（Memory-Mapped I/O，简称 MMIO）是计算机系统中一种极其重要且高效的输入输出机制。在系统编程和底层开发中，它主要包含两个不同维度的概念：一是操作系统层面的文件内存映射技术 ，二是硬件驱动层面的外设寄存器内存映射。

1. 操作系统层面：文件与内存的映射 (mmap)

这是 Linux/Unix 系统编程中用于处理大文件或实现进程间通信（IPC）的高级 I/O 操作。

核心原理 ：通过调用 mmap() 系统调用，将一个磁盘文件直接映射到用户进程的虚拟地址空间中的一块内存区域。一旦完成映射，应用程序就可以像访问普通内存一样（通过指针读写这块内存），来对文件进行操作。
工作机制 ：内核并不会立即将整个文件加载到物理内存中，而是修改页表建立映射关系。当程序首次尝试读取或写入某个地址时，会触发缺页异常，此时操作系统才会将文件中对应的数据块从磁盘读入物理页框，并更新页表。写回磁盘时，脏页会被标记并在后台自动同步，或者由程序主动调用 msync() 强制同步。
显著优势 ：
- 减少数据拷贝 ：传统 read/write 需要将数据从磁盘拷贝到内核缓冲区，再拷贝到用户空间；而内存映射省去了从内核空间到用户空间的二次拷贝，效率更高。
- 避免频繁系统调用 ：直接使用内存访问指令（如 *ptr = value）操作数据，避免了反复陷入内核态的系统调用开销。
- 便于进程共享：多个进程可以将同一个文件映射到各自的地址空间，一个进程的修改其他进程立即可见，是实现高效共享内存的重要手段。

2. 硬件驱动层面：设备寄存器的内存映射 (ioremap)

这是嵌入式开发和 Linux 驱动开发中控制外部硬件的标准方式。

核心原理：在这种模式下，I/O 设备的寄存器被当做存储器的单元进行地址分配，CPU 使用统一的访存指令（普通的 load/store 指令）即可访问 I/O 端口，而不需要专门的输入输出指令。现代 ARM 架构处理器只支持这种 MMIO 模式。
Linux 驱动中的实现 ：由于 Linux 运行在虚拟地址空间中，驱动程序不能直接使用物理地址去操作硬件寄存器。必须通过内核提供的 ioremap() 函数，安全地将硬件的物理地址映射到内核的虚拟地址空间。
关键注意事项 ：
- 缓存一致性：映射设备寄存器时，页表项必须设置为"非缓存、不可合并、强有序"属性。因为 CPU 缓存会导致读写延迟，无法保证硬件控制的实时性。
- 内存屏障 ：现代 CPU 和编译器会对指令进行重排优化。为了防止乱序执行导致硬件初始化失败（例如先启动 DMA 再设置 DMA 地址），在读写寄存器时必须配合使用内存屏障（如 writel() / readl() 等封装接口）。

总结来说，无论是为了提升文件处理的吞吐量，还是为了精确控制底层硬件，存储映射 I/O 都通过将目标资源"伪装"成一段连续的内存，极大地简化了编程模型并提升了系统性能。