【计网】理解TCP全连接队列与tcpdump抓包

希望是火，失望是烟，
生活就是一边点火，一边冒烟。

理解TCP全连接队列与tcpdump抓包

[1 TCP 全连接队列](#1 TCP 全连接队列)
- [1.1 重谈listen函数](#1.1 重谈listen函数)
- [1.2 初步理解全连接队列](#1.2 初步理解全连接队列)
- [1.3 深入理解全连接队列](#1.3 深入理解全连接队列)
[2 tcpdump抓包](#2 tcpdump抓包)

1 TCP 全连接队列

1.1 重谈listen函数

这里我们使用之前实现的tcp_echo_server的客户端与服务端。

我们来看listen

cpp 复制代码

LISTEN(2)                                    Linux Programmer's Manual                                                          
NAME
       listen - listen for connections on a socket

SYNOPSIS
       #include <sys/types.h>          /* See NOTES */
       #include <sys/socket.h>

       int listen(int sockfd, int backlog);

这里的第二个参数我们之前设置的是一个const常量，但是这个到底代表什么含义呢？今天我们就来学习一下。

当我们启动客户端和服务端时，我们能够通过netstat -natp查找到建立的两个连接！

分别是客户端到服务端与服务端到客户端的连接！我们将服务端的的accept注释掉来看：

cpp 复制代码

    void Loop()
    {
        _isrunning = true;
        while (_isrunning)
        {
            sleep(1);
            // accept接收sockfd
            // struct sockaddr_in client;
            // socklen_t len = sizeof(client);
            // int sockfd = ::accept(_listensockfd, (struct sockaddr *)&client, &len);
            // if (sockfd < 0)
            // {
            //     LOG(WARNING, "accept error\n");
            //     sleep(1);
            //     continue;
            // }
            // InetAddr addr(client);
            // // 读取数据
            // LOG(INFO, "get a new link, client info : %s, sockfd is : %d\n", addr.AddrStr().c_str(), sockfd);

            // version 4 --- 线程池版本
            // task_t t = std::bind(&TcpServer::Service , this , sockfd , addr);
            // ThreadPool<task_t>::GetInstance()->Equeue(t);
        }

这里的服务端的启动后，就只进行了初始化套接字文件，不会进行accept!

我们看这个结果中，服务端和客户端还是建立起了连接！也就是说三次握手建立连接的过程与服务端是否进行accept无关！

当我们启动多个客户端进程之后，会发现有一些客户端进程的连接处于SYN_SENT状态，因为在服务器来不及进行accept的时候，底层的TCP listen sock 允许用户进行三次握手建立连接，但是不能建立太多！**这个数量就是backlog + 1！**而维护的成功连接在操作系统维护的数据结构就是全连接队列！

listen函数中 backlog 的含义就是全连接队列中已经建立三次握手成功的个数！

这时我们就能够理解listen函数的两个参数了！

int sockfd：sockfd是调用socket函数创建的套接字文件描述符。在调用listen之前，服务器应用程序必须先用socket函数创建一个套接字，一般使用bind函数将其绑定到一个本地地址和端口上。
int backlog：backlog指定了在拒绝新的连接请求之前，系统应该为该套接字排队的最大连接数量。这个参数对防止过载很有用，它控制了未完成连接（SYN_RCVD状态）队列和已完成但还未被应用程序的accept调用接收的连接（ESTABLISHED状态）队列的总和的大小。

1.2 初步理解全连接队列

在操作系统中有应用层，传输层，网络层...在传输层中有一个接收队列accept_queue，建立连接时就进行三次握手。操作系统中用户访问的网站多种多样，并且会并发的运行，所以在操作系统内部一定是要通过数据结构来进行管理的！

连接本质就是操作系统内核中的一批数据结构！

在传输层中将这个数据结构放入队列中进行管理！应用层会调用accept获取连接，传输层就会返回给一个文件描述符供应用层使用，通过这个文件描述符，应用层就可以进行通信！这个队列就是全连接队列！

当应用层非常忙，来不及accept，那么全连接队列中会挤压连接，这个总数不能超过 backlog ！这个并不代表服务端只能同时处理 backlog + 1个连接。全连接队列中的连接表示连接成功但来不及及时处理的连接！

全连接队列的本质就是生产消费模型，应用层从其中获取资源，传输层向其中放入资源！这个队列保证了在应用层较忙时无法获取连接时，可以先将一些连接维护起来，等待应用层调用，这样可以大大提升效率，提高连接吞吐量！增加服务端闲置率，减少给用户提供服务的效率和体验！

1.3 深入理解全连接队列

当服务器启动时，本质上是启动一个进程，那么就会有对应的task_struct。在这个结构体中都会有struct files_struct！其中包含文件描述符表struct file*fd_array[]，每个元素都指向文件结构体struct file。

当创建网络套接字时，会创建一个struct socket结构体！在内核中时这样一个结构：

可以看到struct socket结构体内部有一个struct file结构体，但是未来我们是想通过文件描述符找到对应的套接字，然后进行读取数据。可是现在是struct socket结构体内部有一个struct file结构体，如果通过struct file结构体找到套接字呢？

在struct file结构体有一个指针void* private_data,这个指针指向struct socket结构体。这样两个结构体就联系起来了！

struct socket结构体是网络Socket的入口，其内部还包含一个const struct proto_ops结构体

这是一个方法集，集合了bind，connect...一系列的函数指针！

虽然我们struct socket结构体是内核中的套接字结构，但建立连接时真实的数据结构是tcp_sock结构体！

这是TCP套接字，其中包含了慢启动算法阈值，拥塞窗口大小，关联进程...一系列TCP协议中的对应字段！这个tcp_sock就是三次握手时候建立的结构体！其中的第一个成员struct inet_connection_sock是复制连接属性的！这里就包含连接的相关信息。全连接队列就在这个结构体中！

这里有超时重传的触发时间，TCP 连接的状态，握手失败重试次数，全连接队列...等数据。

全连接队列中时这样的结构：

struct inet_connection_sock中的第一个成员是struct inet_sock结构体，这是网络层的结构体。

struct inet_sock结构体其中包含了目的端口号，源端口号，目的 IP 地址和源 IP 地址等数据！更重要的是其中第一个成员是struct sock结构体，里面包含着报文的一些属性。这是整个tcp_sock中最底层的结构体，其中有两个字段：接收队列和发送队列

c 复制代码

struct sk_buff_head sk_receive_queue;
struct sk_buff_head sk_write_queue;

这两个队列对于网络通信至关重要，因为它们直接参与了数据的接收和发送过程。今天不详细讲解。

我们再回过来看struct socket，其中有一个结构体指针struct sock* sk，这个指针可以指向tcp_sock中最底层的struct sock结构体，然后可以通过类型转换，最终读取到整个tcp_sock结构体！也就是说，这个指针指向了tcp_sock结构体！这是C风格的多态！

同样的创建UDP套接字时，udp_sock的第一个成员是struct inet_sock结构体（因为udp不需要连接所以没有包含连接属性结构体）。那么最终也是一个struct sock结构体，所以也可以通过C风格的多态实现！

通过基类struct socket，我们可以进行tcp和udp的通信，所以说他是网络socket的入口。

此时，我们看上图，可以直观的理解套接字的结构。每当创建网络套接字时就会创建一个socket文件。这个文件中会指向通用socket，这个通用socket可以指向TCP结构体或UDP结构体。

三次握手建立一个连接时，主要是创建tcp_sock或udp_sock，两者的区别就是是否包含连接属性结构体！然后就将这个结构体放入到全连接队列中去！获取连接时，会通过sock_map_fd方法，将sock套接字转换为文件描述符！

2 tcpdump抓包

现在我们已经学习完毕了TCP协议的内容，熟悉了TCP报头结构中各个字段的意义，了解了三次握手和四次挥手的过程。接下来我们落实一下动手能力---进行抓包。

Linux系统中我们使用TCPDump ：TCPDump 是一款强大的网络分析工具，主要用于捕获和分析网络上传输的数据包。

tcpdump 通常已经预装在大多数 Linux 发行版中。如果没有安装，可以使用包管理器进行安装。例如 Ubuntu系统可以使用以下命令安装：

bash 复制代码

sudo apt-get update
sudo apt-get install tcpdump

我们接下来在我们的云服务器进行一些抓包！

通过 sudo tcpdump -i any tcp命令，我们可以看到实时传输的数据包！

-i any 指定捕获所有网络接口上的数据包， i 可以理解成为 interface "界面"的意思.
tcp 指定捕获 TCP 协议的数据包。

我们如果想要捕获特定源或目的源IP地址的TCP报文呢？

使用 host 关键字可以指定源或目的 IP 地址。例如，要捕获源 IP 地址为192.168.1.100 的 TCP 报文，可以使用以下命令：

bash 复制代码

$ sudo tcpdump src host 192.168.1.100 and tcp

要捕获目的 IP 地址为 192.168.1.200 的 TCP 报文，可以使用以下命令：

bash 复制代码

$ sudo tcpdump dst host 192.168.1.200 and tcp

同时指定源和目的 IP 地址，可以使用 and 关键字连接两个条件：

bash 复制代码

$ sudo tcpdump src host 192.168.1.100 and dst host 192.168.1.200 and tcp

我们如果想要捕获特定端口的TCP报文呢？

使用 port 关键字可以指定端口号。例如，要捕获端口号为 80 的 TCP 报文（通常是HTTP 请求），可以使用以下命令：

bash 复制代码

$ sudo tcpdump port 80 and tcp

保存捕获的数据包到文件与读取

使用 -w 选项可以将捕获的数据包保存到文件中，以便后续分析。例如：

bash 复制代码

$ sudo tcpdump -i eth0 port 80 -w data.pcap

这将把捕获到的 HTTP 流量保存到名为 data.pcap 的文件中。

• 了解： pcap 后缀的文件通常与 PCAP（Packet Capture）文件格式相关，这是一种用于捕获网络数据包的文件格式,不能通过直接的cat读取！

使用 -r 选项可以从文件中读取数据包进行分析。例如：

bash 复制代码

sudo tcpdump -r data.pcap

注意事项

使用 tcpdump 时，请确保你有足够的权限来捕获网络接口上的数据包。通常，你需要以 root 用户身份运行 tcpdump。
使用 tcpdump 的时候，有些主机名会被云服务器解释成为随机的主机名，如果不想要，就用-n 选项
主机观察三次握手的第三次握手，不占序号

通过抓包我们可以验证三次握手和四次挥手的过程：

可以看到是第一次是SYN请求，第二次是SYN+ACK，第三次是ACK！通信过程中也把窗口大小确定了！

可以看到四次会受到过程！这里因为服务端和客户端同时断开连接，所以中间两次的挥手合并为一次通信，通过ACK序号和确认序号可以确定！！！我们可以通过sleep将服务端和客户端断开的时间错开

这样就是完整的四次挥手！