内核无法转发由交换机发出的udp分片trunk包
一、拓补图
二、问题及现象描述
1.server无法采集到pc的发送的经SW后带vlan标签的opcda数据(采集方式:pc主动发送UDP数据,server被动接收pc的上送的数据);
2.pc能ping通server;
3.server能收到pc发送的长度为14的UDP数据包;
4.server无法收到pc发送的端口为8200的长度为4747的数据包(PC发出时会分片);
5.将FW换成传统的其他FW,数据能正常通信;
6.通过抓包观察,FW入口能收到分片数据包,出口无法收到分片数据包;
7.FW关闭netfilter模块,能正常通过;
8.FW将/proc/sys/net/bridge/bridge-nf-call-iptables关闭(桥不走netfilter),能正常通过。
三、通过现象得出结论
问题出在FW;
FW无法转发带vlan标签的且分片的UDP数据;属于内核的bug。
四、问题原因
当报文中的协议为802.1q时,未走分片逻辑,导致驱动发送数据包时大于MTU而数据包丢失。如图:
net/bridge/br_netfilter.c
调试信息如下图:
即,skb->protocol协议号为129(0x8100 802.1q),而代码中的htons(ETH_P_IP)为8(0x08 IP协议),导致无法进入分片逻辑;
代码如下图:
五、解决方法:
在走完netfilter过滤后,增加对802.1q的带vlan数据包的逻辑判断,使其能正常将802.1q的数据包分片后转发。如下图:
net/bridge/br_netfilter.c
相关内核文件:net/bridge/br_netfilter.c
函数:br_nf_dev_queue_xmit