Linux C/C++ 分析网络流量（十六进制TCP数据包分析）

在分析TCP数据包时，理解TCP协议的工作原理和报文格式是关键。TCP是一种面向连接的、提供可靠的、端到端的字节流传输服务。其头部结构包括源端口、目标端口、序列号、确认应答号等字段。序列号是在建立连接时由计算机生成的随机数作为初始值，每发送一次数据，就累加一次该数据字节数的大小，而确认应答号是指下一次期望收到的数据的序列号。

抓包和分析数据包是理解TCP/IP协议的重要手段。Wireshark是最知名的网络通讯抓包分析工具，可以截取各种网络封包并显示详细信息。通过抓包和分析数据包，我们可以深入理解TCP帧格式及"TCP三次握手"，进一步提高理论联系实践的能力。

例如，我们选择一个TCP数据包进行分析，在数据包详细信息面板中，我们可以看到TCP协议的详细信息，包括TCP标志位、序号、确认号、窗口大小等信息。此外，我们还可以查看数据包的十六进制数据。

总的来说，TCP数据包的分析原理主要涉及对TCP协议的理解、使用相关工具进行数据包抓取和分析以及理解TCP头部结构等方面。处理细节则包括如何从大量的数据包中筛选出需要的信息，如何理解和解析TCP协议的各种字段等。

理解TCP协议工作原理和报文

TCP（Transmission Control Protocol，传输控制协议）是一种面向连接的、可靠的、基于字节流的传输层通信协议。它在互联网协议（IP）网络上通过TCP/IP协议栈进行工作。

TCP的工作原理可以概括为以下几个方面：

1.建立连接：在源主机和目标主机之间建立连接，以便进行数据传输。

2.编号和排序数据段：在连接建立后，源主机按顺序发送数据段，每个数据段都有一个编号，以便目标主机重新排序。

3.确认和重传：目标主机对接收到的数据段进行确认，如果数据段丢失或损坏，则发送请求重传的信号。

4.流量控制：TCP使用窗口机制来控制数据的流量，以避免因接收方缓冲区满而造成的数据丢失。

5.关闭连接：当数据传输完成时，连接将被关闭。

TCP的报文格式包括以下几个部分：

1.源端口和目标端口：指示数据从哪个进程来，到哪个进程去。

2.序号：表示从TCP源端向TCP目标端发送的数据字节流中的第一个数据字节。

3.确认号：包含目标端所期望收到源端的下一个数据字节的序号。

4.TCP首部长度：表示该TCP头部有多少个32位（以4个字节为单位）。

5.标志位：包括紧急标志（URG）、确认标志（ACK）、推送标志（PSH）、可重用标志（RST）、同步标志（SYN）和终止标志（FIN）等。

6.窗口大小：表示接收方可以接收的最大数据量。

7.校验和：用于校验数据的有效性。

8.紧急指针：当URG标志位为1时，表示紧急数据的位置。

9.数据部分：包含实际传输的数据。

TCP的报文格式根据不同的用途和选项可能会有所不同，但以上是基本组成部分。理解TCP报文格式对于理解TCP协议的工作原理和实现可靠传输至关重要。

TCP怎么实现可靠传输

TCP通过以下几种机制来实现可靠传输：

序列号和确认机制：每个TCP包都有一个序列号，接收方通过发送端的确认信息来确认收到的数据，并告知发送方下一个期望接收的数据序号。
超时重传：发送方在发送数据后启动一个计时器，如果在规定时间内没有收到接收方的确认信息，就会认为数据丢失，然后重新发送数据。
滑动窗口协议：接收方使用滑动窗口来控制数据的流量和接收速度。滑动窗口可以指定接收方现在能够接受的最大数据量，发送方需要确保在窗口范围内发送数据。
流量控制：TCP使用基于接收方通告的窗口大小来控制数据发送速率，确保发送方不会以过快的速度发送数据，使接收方无法处理。
拥塞控制：TCP通过调整发送方的发送速率来避免网络拥塞。通过监测网络的拥塞程度并及时降低发送速率，使得整个网络能够维持在一个合理的状态。

以上是TCP实现可靠传输的主要机制，通过这些机制，TCP可以在不可靠的网络环境下实现可靠的数据传输。

tcpflow - 分析网络流量

tcpflow是一个功能强大的、基于命令行的免费开源工具，用于在Unix之类的系统(如Linux)上分析网络流量。它可以捕获通过TCP连接接收或传输的数据，并存储在文件中供以后分析，采用的格式便于协议分析和调试。

tcpflow的工作原理是基于LBL Packet Capture Library，支持丰富的过滤条件，能够捕获网络或存储文件中的数据包，并按照正常顺序重建数据流。每一条TCP流都会被存储到独立的文件中，方便以后分析。与tcpdump相比，tcpflow会重新构建真实的数据流，并且会分开存储。

当你想要使用tcpflow命令来捕获和输出TCP流量时，以下是一些相关的例子：

基本使用：
复制代码
```
tcpflow -r pcap_file.pcap
```
这个命令将读取一个PCAP文件（例如Wireshark捕获到的网络数据包），并将TCP流量保存到相应的文件或屏幕上。

默认情况下，tcpflow将所有捕获的数据存储在表单中具有名称的文件中（如果使用某些选项（如时间戳），这可能会有所不同）。现在让我们做一个目录列表，看看是否在任何文件中捕获了tcp流。

还生成了一个XML报告，含有关于该程序的信息，比如它是如何编译的、它在哪台计算机上运行以及每条TCP连接的记录。

指定输出目录：
复制代码
```
tcpflow -o output_directory -r pcap_file.pcap
```
这个命令将指定TCP流量的输出目录。每个流将被保存为单独的文件，文件名由IP地址和端口组成。
只显示请求或响应：
复制代码
```
tcpflow -r pcap_file.pcap 'src host X.X.X.X'
tcpflow -r pcap_file.pcap 'dst host X.X.X.X'
```
这两个命令将只捕获某个特定源IP地址或目标IP地址的请求或响应流量。
过滤特定端口：
复制代码
```
tcpflow -r pcap_file.pcap 'tcp port 80'
```
这个命令将只捕获TCP端口为80的流量。
高亮显示输出：
复制代码
```
tcpflow -C -r pcap_file.pcap
```
这个命令将以彩色高亮的方式显示输出结果，以便更容易阅读和理解。
指定接口名称

要从特定网络接口捕获数据包，请使用-i标志指定接口名称。
复制代码
```
tcpflow -i eth0 port 80
```

有关更多信息和用法选项，请参见tcpflow手册页。

man tcpflow

Linux C/C++ 分析网络流量（十六进制TCP数据包分析）

编写主要目的是旧的tcpflow不提供十六进制控制台输出。Simson L.Garfinkel的新tcpflow需要一个libcairo-dev，这需要对我的服务器系统有很大的x11依赖性。我认为tcpflow是一个命令行工具，我真的不需要pdf报告。编译新的tcpflow很困难，而且根本不能禁用libcairo。

c 复制代码

...
void hexdump(const char *buffer, size_t size)
{
...

    for (;;) {
        const char *line_end = line_start + LINE_CHAR_COUNT > buffer_end
                             ? buffer_end
                             : line_start + LINE_CHAR_COUNT;

        if (line_start == line_end) {
            break;
        }   
...

        // hex part
...

        // blank
        count += snprintf(output + count, sizeof(output), "    ");

        // acsii part
        for (const char *p = line_start; p < line_end; ++p) {
            count += snprintf(output + count, sizeof(output), "%c",
                              isprint(*p) ? *p : '.');
        }   

        printf("%s\n", output);

        line_start = line_end;
    }   
}

void process_ip_packet(const struct timeval *ts,
                       const char *buffer, size_t size)
{
    if (size < sizeof(struct ip)) {
        die("invalid ip packet length");
    }

...

    process_tcp_packet(ts,
                       ntohl(ip_header->ip_src.s_addr),
                       ntohl(ip_header->ip_dst.s_addr),
                       buffer + ip_header_len,
                       ip_len - ip_header_len);
}

void process_tcp_packet(const struct timeval *ts,
                        u_int32_t src_addr, u_int32_t dst_addr,
                        const char *buffer, size_t size)
{
...

    if (size < sizeof(struct tcphdr)) {
        die("invalid tcp packet length");
    }

...
    if (tcp_header_len >= size) {
        return;
    }

    if (g_option_color) {
        if (src_addr != last_src_addr || dst_addr != last_dst_addr ||
            src_port != last_src_port || dst_port != last_dst_port) {
            last_src_addr = src_addr;
            last_dst_addr = dst_addr;
            last_src_port = src_port;
            last_dst_port = dst_port;
            current_color = !current_color;
        }
        printf("%s", colors[current_color]);
    }

    if (g_option_display_header) {
...
        strftime(format_time, sizeof(format_time), "%Y-%m-%d %H:%M:%S", &tm);
        printf("%s.%ld %d.%d.%d.%d:%d => %d.%d.%d.%d:%d\n",
               format_time, ts->tv_usec / 1000,
               (src_addr & 0xff000000) >> 24,
               (src_addr & 0x00ff0000) >> 16,
               (src_addr & 0x0000ff00) >> 8,
               src_addr & 0x000000ff,
               src_port,
               (dst_addr & 0xff000000) >> 24,
               (dst_addr & 0x00ff0000) >> 16,
               (dst_addr & 0x0000ff00) >> 8,
               dst_addr & 0x000000ff,
               dst_port);
    }

    // print hex data
    hexdump(buffer + tcp_header_len, size - tcp_header_len);

    if (g_option_color) {
        printf("%s", "\033[0m");
    }

    printf("\n");
}


...
void print_usage(const char *prog_name)
{
    fprintf(stderr, "usage: %s [-Ce] <pcap_file> \n", prog_name);
    fprintf(stderr, "   -C do not display packet description\n");
    fprintf(stderr, "   -e output in alternating colors\n");
}

void packet_handler(u_char *user, const struct pcap_pkthdr *h, const u_char *bytes)
{
    if (h->len <= g_datalink_header_length) {
        die("invalid datalink packet length");
    }

    process_ip_packet(&h->ts, (const char *)bytes + g_datalink_header_length,
                      h->len - g_datalink_header_length);
}

int main(int argc, char *argv[])
{
...

    while ((opt = getopt(argc, argv, "Ce")) != -1) {
        switch (opt) {
        case 'C':
            g_option_display_header = false;
            break;
        case 'e':
            g_option_color = true;
            break;
        default:
            print_usage(argv[0]);
            exit(1);
        }
    }

    if (optind >= argc) {
        print_usage(argv[0]);
        exit(1);
    }

    const char *pcap_file_name = argv[optind];
    pcap_t *pd = pcap_open_offline(pcap_file_name, errbuf);
    if (NULL == pd) {
        die("%s", errbuf);
    }

    int dlt = pcap_datalink(pd);
    if (DLT_NULL == dlt) {
        g_datalink_header_length = 4;
    } else if (DLT_RAW == dlt) {
        g_datalink_header_length = 0;
    } else if (DLT_EN10MB == dlt || DLT_IEEE802 == dlt) {
        g_datalink_header_length = 14;
    } else if (DLT_PPP == dlt) {
        g_datalink_header_length = 4;
    } else if (DLT_LINUX_SLL == dlt) {
        g_datalink_header_length = 16;
    } else {
        fprintf(stderr, "unknown datalink type\n");
        return -1;
    }

    struct bpf_program filter;
    if (pcap_compile(pd, &filter, "tcp", 1, 0) != 0) {
        die("%s", pcap_geterr(pd));
    }
    if (pcap_setfilter(pd, &filter) != 0) {
        die("%s", pcap_geterr(pd));
    }
    
    if (pcap_loop(pd, -1, packet_handler, NULL) != 0) {
        die("%s", pcap_geterr(pd));
    }

...
}

If you need the complete source code, please add the WeChat number (c17865354792)

运行结果：

Wireshark抓包展示效果：

总结

在进行十六进制TCP数据包分析时，我们首先需要捕获网络流量，获取TCP数据包。这可以通过网络抓包工具（如Wireshark）实现。然后，对捕获到的数据包进行解析，提取出TCP头部的各个字段和数据部分。

Welcome to follow WeChat official account【程序猿编码】