linux排障:服务端口被打满

事故描述

promotion请求其他服务异常,业务日志报错:"cannot assign requested address"

排障过程

1、

bash 复制代码
netstat -nap | grep ESTABLISHED | wc -l

发现很多链接没有释放,通常这个连接数就几十个

2、

bash 复制代码
#可用临时端口范围
cat /proc/sys/net/ipv4/ip_local_port_range
#当前用户进程可以打开的文件描述符数量,即单个进程能同时建立的连接数数量
ulimit -n
#空闲多少秒后开始发送 keepalive 探测包
cat /proc/sys/net/ipv4/tcp_keepalive_time

发现容器提供的端口有28232个,可以打开的文件描述符为1048576,系统默认keepalive时间为7200s。

事故原因

初步判断短时间内创建大量链接,且在处理完请求后tcp链接没有释放,导致端口被占用完。

于是抓包分析,发现在服务端没有抓到FIN包,并且出现很多keep-alive的报文,怀疑关闭链接的方法有问题或者没生效。经过讨论和测试,发现后端使用的框架里面有一个tcp链接keepalive的相关的配置:

后面将配置改为disablekeepalive: true 关闭了keepalive功能。经过测试已经正常,再运行脚本的时候,tcp链接数已经稳定。

相关推荐
tod113几秒前
IP分片和组装的具体过程
运维·服务器·网络
野犬寒鸦1 分钟前
从零起步学习并发编程 || 第三章:JMM(Java内存模型)详解及对比剖析
java·服务器·开发语言·分布式·后端·学习·spring
hweiyu001 分钟前
Linux 命令:diff3
linux
小李独爱秋4 分钟前
计算机网络经典问题透视:无线局域网的物理层主要有哪几种?
服务器·网络·物联网·计算机网络·信息与通信
Honmaple19 分钟前
OpenClaw 钉钉插件安装指南
服务器·网络·钉钉
代码AI弗森33 分钟前
WSL2:在 Windows 上获得一整套可托付的 Linux 工程环境
linux·运维·服务器
不会代码的小猴34 分钟前
Linux环境编程第五天笔记
linux·笔记
firstacui1 小时前
搭建harbor仓库
linux·docker
niceffking1 小时前
Linux信号相关函数
linux·运维·服务器·linux信号
蚰蜒螟1 小时前
Linux 7 中的系统调用原理
linux·运维·服务器