linux排障:服务端口被打满

事故描述

promotion请求其他服务异常,业务日志报错:"cannot assign requested address"

排障过程

1、

bash 复制代码
netstat -nap | grep ESTABLISHED | wc -l

发现很多链接没有释放,通常这个连接数就几十个

2、

bash 复制代码
#可用临时端口范围
cat /proc/sys/net/ipv4/ip_local_port_range
#当前用户进程可以打开的文件描述符数量,即单个进程能同时建立的连接数数量
ulimit -n
#空闲多少秒后开始发送 keepalive 探测包
cat /proc/sys/net/ipv4/tcp_keepalive_time

发现容器提供的端口有28232个,可以打开的文件描述符为1048576,系统默认keepalive时间为7200s。

事故原因

初步判断短时间内创建大量链接,且在处理完请求后tcp链接没有释放,导致端口被占用完。

于是抓包分析,发现在服务端没有抓到FIN包,并且出现很多keep-alive的报文,怀疑关闭链接的方法有问题或者没生效。经过讨论和测试,发现后端使用的框架里面有一个tcp链接keepalive的相关的配置:

后面将配置改为disablekeepalive: true 关闭了keepalive功能。经过测试已经正常,再运行脚本的时候,tcp链接数已经稳定。

相关推荐
Cosolar2 小时前
LlamaIndex索引类型全解析:原理与实战指南
运维·服务器
方便面不加香菜4 小时前
Linux--基础IO(一)
linux·运维·服务器
2401_868534786 小时前
NFV:将安全设备部署到虚拟机上
网络
zhengfei6116 小时前
【渗透工具】Payloader — 渗透测试辅助平台(payload一键所有)
网络·安全·web安全
鼎讯信通7 小时前
风电光缆运维提质增效:G-4000A 光缆故障追踪仪破解风场巡检难题
运维·网络·数据库
Multipath7128 小时前
无人区不掉线:多链路聚合路由,为环塔拉力赛筑起“空中通讯走廊”
网络·5g·安全·无人机·实时音视频
mounter6259 小时前
现代 Linux 内存管理的演进与变革:从传统 LRU 到多代架构 MGLRU
linux·服务器·kernel
赵渝强老师9 小时前
【赵渝强老师】Kubernetes(K8s)中的金丝雀升级
linux·docker·云原生·容器·kubernetes
Qt程序员10 小时前
Linux RCU 原理与应用
linux·c++·内核·linux内核·rcu
The Sheep 202310 小时前
Vue复习
linux·服务器·数据库