【计算机网络】第14篇：TCP连接管理的有限状态机模型——三次握手与四次挥手的严格推导

[1. 连接管理的状态机视角](#1. 连接管理的状态机视角)

[2. 三次握手的形式化推导](#2. 三次握手的形式化推导)

[2.1 初始状态与目标](#2.1 初始状态与目标)

[2.2 每一步的状态迁移](#2.2 每一步的状态迁移)

[2.3 初始序号的随机化](#2.3 初始序号的随机化)

[3. 四次挥手：半关闭语义与状态迁移](#3. 四次挥手：半关闭语义与状态迁移)

[3.1 全双工关闭的单向性](#3.1 全双工关闭的单向性)

[3.2 被动关闭方的半关闭状态](#3.2 被动关闭方的半关闭状态)

[3.3 状态机图的完整构建](#3.3 状态机图的完整构建)

[4. SYN Flood：状态机脆弱性的攻击利用](#4. SYN Flood：状态机脆弱性的攻击利用)

[4.1 攻击原理](#4.1 攻击原理)

[4.2 SYN Cookie：以无状态应对有状态](#4.2 SYN Cookie：以无状态应对有状态)

[5. TIME_WAIT：可靠语义的最终保障](#5. TIME_WAIT：可靠语义的最终保障)

[5.1 问题的提出](#5.1 问题的提出)

[5.2 延迟分组的可靠终止](#5.2 延迟分组的可靠终止)

[5.3 最后一个ACK丢失下的可靠语义保证](#5.3 最后一个ACK丢失下的可靠语义保证)

[6. 状态机异常与诊断](#6. 状态机异常与诊断)

[7. 结语](#7. 结语)

参考文献

1. 连接管理的状态机视角

TCP将字节流传输抽象为一个有始有终的连接。从协议设计角度，连接不是一条物理路径，而是两端对通信状态的共同约定------双方各自维护一个状态机，通过交换带特定标志位的报文段驱动状态迁移，在任一时刻两端对连接所处阶段的认知必须一致，否则出现半开或半关等异常状态。

状态机方法的核心价值在于将连接管理从经验描述提升为具有形式化验证能力的模型。每个状态精确定义了在该状态下可以发送和接收的报文段类型，以及响应的状态迁移规则。TCP的11个状态定义了连接在生命周期中的全部可能阶段，相比文字描述，状态转移图将协议实现中的死锁、竞争条件和资源泄漏问题暴露得更清晰。

2. 三次握手的形式化推导

2.1 初始状态与目标

连接建立前，服务器处于LISTEN状态，客户端处于CLOSED状态。三次握手的目标是使双方从初始状态同步迁移到ESTABLISHED状态，在此过程中商定初始序号、通告接收窗口大小并协商可选参数。

问题的实质是：在不稳定的IP网络之上，如何让通信双方确认彼此的发送能力和接收能力均正常。一次握手显然不足------客户端发送SYN，但无法知道服务器是否收到，也无法判断自己的接收能力是否正常。两次握手使服务器确认了客户端的发送能力正常，且客户端确认了自己的发送能力和服务器的接收能力正常，但服务器无法确认客户端的接收能力------服务器发出SYN-ACK后不知道客户端是否收到。三次握手闭合了这个确认回路------客户端再次发送ACK，服务器收到后确认客户端已成功收到自己的SYN-ACK。

2.2 每一步的状态迁移

客户端发起连接，发送SYN段并携带初始序号seq=x，状态从CLOSED迁移至SYN_SENT。服务器收到SYN段后，若同意连接，分配连接资源（发送和接收缓冲区），回复SYN+ACK段------SYN标志位置1，确认号ack=x+1，初始序号seq=y，状态从LISTEN迁移至SYN_RCVD。客户端收到SYN+ACK后，回复ACK段------确认号ack=y+1，状态迁移至ESTABLISHED。服务器收到ACK后，状态迁移至ESTABLISHED。连接建立完成。

客户端在SYN_SENT状态下，仅对SYN+ACK段有预期。服务器在SYN_RCVD状态下，已分配连接资源，等待客户端ACK确认。如果这个ACK丢失，服务器将超时重传SYN+ACK，直到放弃连接或收到ACK。

2.3 初始序号的随机化

两端各自随机选取初始序号（ISN），不固定从0开始。这个设计并非仅为避免混淆旧连接的数据，更关键的目的是防止序列号预测攻击------如果攻击者能预测TCP连接的下一序号，就可以伪造RST段强行断开连接或伪造数据段注入恶意载荷。现代TCP实现使用基于时钟和密钥的哈希函数生成ISN，使外部攻击者无法在合理时间内猜测有效序号。

3. 四次挥手：半关闭语义与状态迁移

3.1 全双工关闭的单向性

TCP连接是全双工信道------双方可以同时发送数据。关闭连接时，每个方向必须被独立关闭。四次挥手的本质是两次双向的FIN+ACK交换：一方关闭自己的发送方向发送FIN，对方确认；对方随后关闭自己的发送方向发送FIN，发起方确认。四次挥手是两次单向关闭的汇聚。

3.2 被动关闭方的半关闭状态

客户端发起主动关闭，发送FIN段，状态从ESTABLISHED迁移至FIN_WAIT_1。服务器收到FIN，回复ACK，状态从ESTABLISHED迁移至CLOSE_WAIT。客户端收到ACK后进入FIN_WAIT_2，等待服务器发送FIN。

FIN_WAIT_2状态下，服务器可能仍有数据要发送------连接处于半关闭：客户端已不能再发送数据，但可以继续接收。应用层可以在这个阶段执行优雅关闭------服务器通知应用层对方已关闭写入，应用层发送剩余的响应数据，然后调用close()触发第二个FIN。这种半关闭语义是TCP与UDP的重要区分：应用层可以独立控制读写方向的关闭时序。

3.3 状态机图的完整构建

将客户端和服务器两端的状态转移分别画出，完整的状态机图揭示双方的同步关系。

客户端路径为ESTABLISHED→FIN_WAIT_1→FIN_WAIT_2→TIME_WAIT→CLOSED。服务器路径为ESTABLISHED→CLOSE_WAIT→LAST_ACK→CLOSED。TIME_WAIT是主动关闭方独有的状态，被动关闭方在发送第二个FIN后直接进入LAST_ACK等待最终ACK，收到后直接回到CLOSED。

两端状态在这些转移中保持同步，但竞争条件仍可能发生。如果客户端在FIN_WAIT_1发送FIN的同时，服务器也发送FIN------双方同时主动关闭------两端都进入CLOSING状态而非FIN_WAIT_2和CLOSE_WAIT。这种同时关闭的对称状态机保证了连接在任何时序下都能正确终止。

4. SYN Flood：状态机脆弱性的攻击利用

4.1 攻击原理

SYN Flood攻击直接针对三次握手状态机中服务器端SYN_RCVD状态的资源分配特征。攻击者向服务器发送大量SYN段，源IP地址为伪造的不可达地址。服务器为每个SYN分配连接资源------包括TCB管理结构、接收缓冲区、SYN队列条目------并回复SYN+ACK，进入SYN_RCVD状态等待ACK。由于源IP为伪造地址，SYN+ACK发往一台不存在的或不可达的主机，ACK永远不会到达。服务器在SYN_RCVD状态堆积越来越多半开连接。

每个半开连接消耗的内存和队列槽位是确定的。当SYN_RCVD状态条目填满操作系统为半开连接分配的SYN队列后，后续合法客户端的SYN段要么被丢弃，要么触发SYN Cookie机制。SYN Flood不是利用带宽耗尽，而是利用协议状态机的有限内存资源------每个未完成的握手都消耗一块必须分配却永远不会释放的内核内存。

SYN Cookie的核心思想是服务器在收到SYN时不立即为半开连接分配任何资源。相反，服务器将本该存储在半开连接表中的信息------客户端的IP和端口、MSS值、时间戳------哈希编码后嵌入初始序号（ISN）中，发送SYN+ACK。收到客户端的ACK后，从确认号中提取原SYN Cookie信息，重新哈希验证有效后分配完整连接资源。

如果ACK永远不到，服务器没有为此连接保留任何内存------攻击SYN报文只消耗了服务器的CPU做哈希计算，而不消耗长期状态内存。SYN Cookie的局限在于ISN空间有限，能够编码的可协商选项较少，但它在防御大规模SYN Flood时是不可或缺的机制。现代Linux内核在SYN队列满额时自动启用SYN Cookie作为回退策略，无需管理员手动干预。

5. TIME_WAIT：可靠语义的最终保障

5.1 问题的提出

TIME_WAIT是主动关闭方在收到被动关闭方的FIN并回复最后一个ACK后进入的状态。持续时间为2倍最大段生存期（2MSL），RFC 793建议MSL为2分钟，现代实现通常将TIME_WAIT设为60秒。

从直觉看，连接已关闭，双方没有再发送任何数据，继续等待似乎冗余。TIME_WAIT常被视为令管理员困扰的端口占用状态，在高并发短连接服务器上端口耗尽问题确实由TIME_WAIT直接引发。但TIME_WAIT的存在有其严格的正确性理由------缺少这一状态将导致协议语义破坏。

5.2 延迟分组的可靠终止

考虑以下时序：客户端发送最后一个ACK后直接关闭进入CLOSED，ACK段在网络中丢失。服务器重传FIN。若此时客户端在相同IP和端口对上建立了新连接，将收到一个迟到的FIN------它属于已关闭的旧连接。没有TIME_WAIT，客户端会认为这个FIN是针对新连接的，错误地将新连接带入关闭流程。

TIME_WAIT通过保持旧连接的套接字不可重用足够长时间，确保属于旧连接的所有报文段要么被接收并处理，要么因TTL过期而自然消失。2MSL的等待期是旧数据报文在网络中的最长存活时间估值。经过这段时间后，旧连接的任何残留分段都已从网络中消失，不会再与新连接混淆。

5.3 最后一个ACK丢失下的可靠语义保证

TIME_WAIT的第二个功能是保证TCP连接的全双工关闭可靠完成。如果客户端发送的最后一个ACK丢失，服务器将重传FIN。客户端仍在TIME_WAIT状态中，能够收到重传的FIN并再次发送ACK，重置2MSL计时器。如果客户端直接进入CLOSED，服务器的FIN重传将收到RST应答而非ACK------对方已不存在。被动关闭方从协议角度看将处于未确认关闭状态，未能正常终止。

TIME_WAIT本质上是一种代价转移设计------让主动关闭方承担连接终止的可靠性保障，确保全双工两个方向都可靠关闭后才释放资源。它为主动关闭方引入一个延迟，却保证了协议语义的自洽性。

6. 状态机异常与诊断

TCP状态机在实际运行中可能出现几类典型异常。

半开连接发生在通信一方已无此连接状态而另一方仍保有。例如服务器重启后丢失所有连接信息，而客户端仍处于ESTABLISHED状态。客户端发送数据段时服务器无相关连接记录，回复RST------客户端收到RST后直接进入CLOSED。半开连接的诊断方法是观察RST段的突然出现和连接的意外终止。

孤儿连接发生在应用进程已退出但其打开的连接仍处于ESTABLISHED状态。这通常由错误的进程关闭逻辑造成------应用exit()前未调用close()关闭所有文件描述符，内核会继续维护这些连接直到TCP keepalive超时或对端关闭。孤儿连接持续消耗套接字资源和端口，是服务器端内存泄漏的常见来源之一。

TIME_WAIT堆积在高并发短连接服务器上常见------大量连接短时间内建立和关闭，导致端口对处于TIME_WAIT状态。端口耗尽后新连接无法建立。优化策略包括启用net.ipv4.tcp_tw_reuse（复用TIME_WAIT端口用于新的客户端方向连接）和减小TIME_WAIT时长，或从架构层面使用连接池或长连接减少连接频繁创建与关闭。

7. 结语

TCP连接管理的状态机设计是对不可靠IP网络上构建可靠连接语义的系统性回答。三次握手完成双向能力确认，为后SYN Flood时代引入了无状态防御的可选机制。四次挥手实现全双工关闭的两阶段终止，TIME_WAIT以主动关闭方的短暂延迟为代价，保证了旧连接延迟分组的可靠消亡和最后一个ACK丢失时的协议语义闭合。

状态机是协议的理解框架而非死记硬背的图表。当遇到连接被莫名RST、端口无法绑定、或连接在FIN_WAIT_2长期挂起的问题时，回溯状态转移路径，分析当前状态到期望状态之间的迁移条件是否满足------或是否被攻击利用------是诊断TCP连接异常的通用方法。

参考文献

$1$ Postel, J. RFC 793: Transmission Control Protocol. IETF, 1981.

$2$ Eddy, W. RFC 9293: Transmission Control Protocol (TCP). IETF, 2022.

$3$ Bernstein, D. J. SYN cookies. http://cr.yp.to/syncookies.html, 1996.

$4$ Gont, F., & Bellovin, S. RFC 6528: Defending against Sequence Number Attacks. IETF, 2012.