【Linux-传输层协议TCP】TCP协议段格式+确认应答+超时重传+连接管理机制（三次握手、四次挥手、理解TIME_WAIT + CLOSE_WAIT）

TCP协议

TCP全称为"传输控制协议（Transmission Control Protocol）"人如其名，要对数据的传输进行一个详细的控制。

1.TCP协议段格式

下面是TCP报头各个字段的表格形式：

字段名称	字段大小	描述
源端口	16位	发送端TCP端口号。
目的端口	16位	接收端TCP端口号。
序列号	32位	本报文段所发送数据的第一个字节的序列号。
确认号	32位	期望收到对方下一个报文段的第一个数据字节的序列号。若确认号设置为N，则表示到序列号N-1为止的所有数据都已正确接收。
数据偏移	4位	TCP头部的长度，以4字节为单位，也指示了选项字段（如果有）的长度。
保留	6位	目前未使用，必须设置为0。
控制位	6位	包括URG、ACK、PSH、RST、SYN、FIN等标志，用于控制TCP连接和传输。
窗口大小	16位	发送方接收窗口的大小，即无需再次确认可以接收的数据量。
校验和	16位	用于校验整个TCP段（包括TCP头部和数据）在传输过程中是否出现错误。
紧急指针	16位	仅当URG标志被设置时有效，指出紧急数据的最后一个字节的序号。
选项	可变长度	可选字段，可以包含多种类型的选项，如MSS、窗口缩放、SACK等。
、、、、	、、、、、

下面是TCP报头中控制位字段的表格形式：

控制位标志	占位	描述
URG	1位	紧急标志（Urgent）。当URG=1时，表明紧急指针字段有效，指示紧急数据的位置。
ACK	1位	确认标志（Acknowledgment）。当ACK=1时，确认号字段有效，表示期望收到对方下一个报文段的第一个数据字节的序列号。
PSH	1位	推送标志（Push）。当PSH=1时，要求接收方尽快将数据推送给应用层，而不是等到缓冲区满时才发送。
RST	1位	重置标志（Reset）。当RST=1时，表示TCP连接中出现严重错误，需要重置连接。我们把携带RST标识的称为复位报文段
SYN	1位	同步序列编号标志（Synchronize）。当SYN=1时，表明这是一个连接请求或连接接受报文。我们把携带SYN标识的称为同步报文段
FIN	1位	结束标志（Finish）。当FIN=1时，表明发送方已经发送完所有数据，并要求释放连接。我们把携带FIN标识的称为结束报文段
、、、、、	、、、

这些控制位标志用于TCP连接的建立、维护和终止，以及数据的可靠传输。每个标志都有其特定的作用，通过组合使用这些标志，TCP能够实现复杂的网络通信功能。

4位首部长度

这里有4个比特位，按照正常取值范围就说【0，15】，但是我们的报头至少需要20字节。所以规定TCP报头中4位首部长度的基本单位是4字节，这样取值范围就是【0，60】，所以整个报头大小范围就是【20～60】，报头中选项字段最长为40字节，计算可得，4位首部长度取值范围是【5～15】，转换成二进制就是【0101～1111】

TCP如何将报头与有效载荷进行分离？（如何解包的问题）

1️⃣ 读取标准20字节 2️⃣ 提取首部长度 3️⃣ 根据首部长度-20，结果等于0，那就是报头读完，剩下都是数据；如果结果为n(>0)，再从报文中提取n个字节，这n个字节对应就是选项的大小，剩下的就是有效载荷了

有效载荷如何向上交付？（如何分用的问题）

在计算机网络中，有效载荷（payload）通常指的是数据包中的实际数据部分，不包括头部信息。在TCP协议中，有效载荷是指应用层的数据。有效载荷的向上交付，即从传输层（TCP）交付到应用层的过程

下面是一个简化的表格，展示了有效载荷向上交付和分用的过程：

阶段	操作系统内核操作	应用层操作
数据接收	1. 校验和验证数据段	-
	2. 检查序列号，重组数据	-
	3. 将重组后的数据存入缓冲区	-
数据交付	1. 通知应用层有新数据可用	-
分用	1. 使用端口号匹配对应的套接字	-
	2. 将数据存入套接字的缓冲区	-
	3. 通知拥有套接字的应用进程	1. 接收到通知
	-	2. 通过API读取数据
	-	3. 处理接收到的数据

所以说目的端口解决了对报头进行分用的问题

理解TCP是可靠的

TCP（传输控制协议）是一种面向连接的、可靠的、基于字节流的传输层通信协议。以下是TCP为何被认为是可靠的原因：

特性/机制	描述
面向连接	在数据传输之前，TCP会建立一个连接，确保通信双方都准备好进行数据交换。
三次握手	建立连接的过程使用三次握手，确保双方的序列号同步，避免旧的连接请求被错误地接受。
数据分段	TCP将应用层的数据分割成合适大小的段，便于网络传输。
序列号和确认应答	每个TCP段都有一个序列号，接收方会发送确认应答（ACK），以确保数据的有序接收。
数据重传	如果发送方没有在预定时间内收到确认应答，它会重新发送数据。
流量控制	TCP使用滑动窗口机制来控制发送方的发送速率，以避免接收方处理不过来。
拥塞控制	TCP通过慢启动、拥塞避免、快速重传和快速恢复等算法来避免网络拥塞。
错误检测	TCP头部包含校验和字段，用于检测数据在传输过程中是否发生错误。
数据排序	TCP确保接收到的数据段按照正确的顺序被重新组装。
连接终止	TCP使用四次挥手过程来优雅地终止连接，确保所有数据都被正确传输。

以下是TCP可靠性的一些关键点：

数据完整性：通过校验和，TCP可以检测数据在传输过程中是否损坏，并在必要时重新传输。

数据有序性：序列号确保了数据按照发送顺序到达接收方。

数据传输可靠性：通过确认应答和重传机制，TCP确保所有发送的数据都被接收方正确接收。

流量控制：滑动窗口机制防止发送方发送数据过快，导致接收方来不及处理。

拥塞控制：TCP的拥塞控制算法帮助网络避免过载，从而保持数据传输的可靠性。由于这些特性，TCP适用于需要高可靠性的应用，如Web浏览器、电子邮件、文件传输等。然而，这种可靠性也意味着TCP在某些情况下可能不如UDP（用户数据报协议）那样高效，因为UDP不提供这些可靠性保证，但它允许更快的数据传输速度。

为什么说UDP是不可靠的？

UDP（用户数据报协议）被认为是一种不可靠的传输层协议，原因在于它缺乏TCP（传输控制协议）中提供的一系列确保数据可靠传输的特性。下面是UDP不可靠性的几个关键点：

特性/机制	描述	不可靠性的影响
无连接	UDP不建立持续的网络连接。	发送和接收双方没有持续的状态信息，每次传输都是独立的。
无确认应答	UDP不使用ACK机制来确认数据包的接收。	发送方无法知道数据包是否已经到达接收方，如果数据包丢失，不会有任何通知。
无重传机制	UDP不会重传丢失的数据包。	如果数据包在传输过程中丢失，它将不会被重新发送，导致数据丢失。
无数据排序	UDP不保证数据包的到达顺序。	数据包可能会以不同于发送顺序的方式到达，接收方可能接收到乱序的数据。
无流量控制	UDP没有流量控制机制。	发送方可以以任何速度发送数据，不管接收方是否能够处理，可能导致接收方缓冲区溢出，数据丢失。
无拥塞控制	UDP不实施拥塞控制。	UDP不会根据网络拥塞情况调整数据传输速率，可能导致网络拥塞，增加数据丢失的可能性。
校验和可选	UDP头部的校验和字段是可选的。	即使使用了校验和，它也只能检测错误，不会修复错误的数据包。如果没有使用校验和，甚至无法检测到错误。
、、、、、

以下是UDP不可靠性的一些具体表现：

数据丢失：由于没有重传机制，如果数据包在网络中丢失，它将不会被重新发送。
数据重复：由于没有确认应答和数据排序，可能会出现数据包重复到达接收方的情况。
数据损坏：即使使用了校验和，UDP也只能检测到错误，而不会修复错误的数据包。
网络拥塞：UDP不会根据网络拥塞情况调整传输速率，可能会导致网络拥塞，进一步影响数据传输的可靠性。

尽管UDP被认为不可靠，但它仍然在许多应用场景中非常有用，尤其是那些对实时性要求高，可以容忍一定数据丢失的应用，例如：

实时视频和音频流：如视频会议和流媒体服务，它们更关注流畅性而不是数据的完整性。
在线游戏：游戏通常需要低延迟的通信，即使偶尔的数据丢失也比延迟更好。
DNS查询：域名系统查询通常使用UDP，因为它需要快速响应，而且单个查询的数据量较小。

UDP的简单性和低开销使其在某些情况下比TCP更有效。

2.确认应答（ACK机制）

再谈ACK机制前，我们先举一个生活例子，生活中两个人说话，我怎么确定对方有没有收到我的话呢？我们是通过对方的应答，来确定对面有没有收到我说的话，只有对方应答了，我们才知道他听见了

而在客户端与服务端的通信过程中（TCP下），也是通过确定对方应答，来表明另一端收到了我的信息；只要收到了应答，就能保证我发的数据，对方一定收到了

所以双方进行通信时可能除了正常的数据段，还会包含确认数据段。

客户端向服务端发送数据，服务端收到后返回一条应答给客户端，表示服务端收到了；客户端可以一次只发送一条，但是在大部分场景下，客户端是一次发送多条数据段的，服务端也可以一次性返回多条应答

但是这些数据段到达对面的顺序不一定就是发送的顺序，比如发送4个数据段，结果只收到2个或者3个确认应答，客户端是如何知道哪个数据段发送失败了呢？

因为任何一方发送的一定含有报文，报文中就有一个属性叫做序号，TCP将每个字节的数据都进行了编号，即为序列号；

每一个ACK都带有对应的确认序列号，意思是告诉发送者，我已经收到了哪些数据；下一次你从哪里开始发

比如这里的客户端发送的数据段是1，报文中含有1000个字节的数据，如果服务端收到了，那么服务端返回给客户端的响应报头中的确认序号就填成1001，这个1001有两层含义：

告诉客户端，1001序列号以前的字节数据我已经收到了
告诉客户端，下次向我发送数据时应该从序列号1001开始

也正是因为有了连续应答，TCP允许对应答的少量缺失（比如我只返回4001，表示4001之前的我全部收到了）

如果1001报文丢失了，但其他的数据段传递到了服务端，服务端只会返回1001应答，表明1001以前的序列号都收到了

如何理解序列号？

所谓序列号就是该字节缓冲区数组的下标，数据从应用层拷贝到传输层发送缓冲区时，每个字节天然的有了一个编号；发送方发送的序号就是首个字节数据在发送缓冲区对应的下标，接收缓冲区响应应答的确认序号就是接收缓冲区接收到最后一个有效数据的下一个位置对应的下标

3.超时重传机制

丢包的两种情况

【情况一】发送的数据报文丢失了，此时发送端在一定时间内收不到对应的应答报文，就会进行超时重传

主机 A 发送数据给 B 之后，可能因为网络拥堵等原因，数据无法到达主机 B。
如果主机 A 在一个特定时间间隔内没有收到 B 发来的确认应答 ，就会进行重发。

【情况二】应答报文丢失，此时发送端也会因为收不到对应的响应报文，而进行超时重传。但是主机 A 未收到 B 发来的确认应答，也可能是因为 ACK 丢失了。

因此主机 B 会收到很多重复数据，那么 TCP 协议需要能够识别出那些包是重复的包，并且把重复的丢弃掉。

这时候就可以利用前面提到的序列号，就可以很容易做到去重（通过序号）的效果。

那么，超时的时间如何确定呢？

• 最理想的情况下，找到一个最小的时间，保证"确认应答一定能在这个时间内返回".

• 但是这个时间的长短，随着网络环境的不同，是有差异的.

• 如果超时时间设的太长，会影响整体的重传效率；

• 如果超时时间设的太短，有可能会频繁发送重复的包；

TCP为了保证无论在任何环境下都能比较高性能的通信，因此会动态计算这个最大超时时间

• Linux 中（BSD Unix 和 Windows 也是如此），超时以500ms 为一个单位进行控制，每次判定超时重发的超时时间都是 500ms 的整数倍.

• 如果重发一次之后，仍然得不到应答，等待2*500ms 后再进行重传.

• 如果仍然得不到应答，等待4*500ms 进行重传.依次类推，以指数形式递增.

• 累计到一定的重传次数，TCP 认为网络或者对端主机出现异常，强制关闭连接.

4.连接管理机制

在正常情况下，TCP要经过三次握手建立连接，四次挥手断开连接

服务端状态转化：