套接字缓冲区数据管理
在内核分析(收到)网络分组时,底层协议的数据将传递到更高层。分送数据时顺序相反,各种协议产生的数据(首部和净荷)依次向更低层传递,直到最终发送。这些操作的速度对网络子系统的性能有决定性影响,因此内核使用一种特殊的结构,称为套接字缓冲区(socket buffer),具体源码如下:
套接字缓冲区的基本思想是"通过操作指针来增删协议首部"。head 和 end 指向数据在内存中的起始和结束位置。data 和 tail 指向协议数据区域的起始和结束位置。mac_header
指向 MAC 协议首部的起始,而 network_header
和 transport_header
分别指向网络层和传输层协议首部的起始。
在字长 32 位的系统上,数据类型 sk_buff_data_t
用来表示各种类型为简单指针的数据,具体结构 sk_buff_data_t
如下图所示:
从套接字缓冲区获得 TCP 首部:
管理套接字缓冲区数据
套接字缓冲区结构不仅包含上述指针,还包括用于处理相关的数据和管理套接字缓冲区自身的其他成员。下面是一些重要的成员:
- tstamp 保存了分组到达时间;
- dev 指定了处理分组的网络设备;
- sk 是一个指针,指向用于处理该分组的套接字对应的 socket 实例;
- dst 表示接下来该分组通过内核网络实现的路由;
- next 和 prev 用于套接字缓冲区保存到一个双链表中。
使用一个表头来实现套接字缓冲区的等待队列,其结构类型定义如下:
使用双向链表管理套接字缓冲区如下:
Linux 内核提供用于操作套接字缓冲区的标准函数如下:
补充 net_device
net_device
结构体存储网络设备的所有信息,每个设备都有这种结构。所有设备的 net_device
结构放在一个全局变量 dev_base
所有全局列表中。和 sk_buff
一样,整体结构相庞大的。结构体中有一个 next 指针,用来连接系统中所有网络设备。内核吧这些连接起来的设备组成一个链表,并有全局变量 dev_base
指向链表的第一个元素。net_device
结构体源码如下: