linux排障:服务端口被打满

事故描述

promotion请求其他服务异常,业务日志报错:"cannot assign requested address"

排障过程

1、

bash 复制代码
netstat -nap | grep ESTABLISHED | wc -l

发现很多链接没有释放,通常这个连接数就几十个

2、

bash 复制代码
#可用临时端口范围
cat /proc/sys/net/ipv4/ip_local_port_range
#当前用户进程可以打开的文件描述符数量,即单个进程能同时建立的连接数数量
ulimit -n
#空闲多少秒后开始发送 keepalive 探测包
cat /proc/sys/net/ipv4/tcp_keepalive_time

发现容器提供的端口有28232个,可以打开的文件描述符为1048576,系统默认keepalive时间为7200s。

事故原因

初步判断短时间内创建大量链接,且在处理完请求后tcp链接没有释放,导致端口被占用完。

于是抓包分析,发现在服务端没有抓到FIN包,并且出现很多keep-alive的报文,怀疑关闭链接的方法有问题或者没生效。经过讨论和测试,发现后端使用的框架里面有一个tcp链接keepalive的相关的配置:

后面将配置改为disablekeepalive: true 关闭了keepalive功能。经过测试已经正常,再运行脚本的时候,tcp链接数已经稳定。

相关推荐
源远流长jerry11 分钟前
在 Ubuntu 22.04 上配置 Soft-RoCE 并运行 RDMA 测试程序
linux·服务器·网络·tcp/ip·ubuntu·架构·ip
twc82928 分钟前
大模型生成 QA Pairs 提升 RAG 应用测试效率的实践
服务器·数据库·人工智能·windows·rag·大模型测试
lay_liu32 分钟前
Linux安装redis
linux·运维·redis
虾..1 小时前
UDP协议
网络·网络协议·udp
w-w0w-w2 小时前
Unix网络编程
服务器·网络·unix
未知鱼2 小时前
Python安全开发之子域名扫描器(含详细注释)
网络·python·安全·web安全·网络安全
寂柒2 小时前
序列化与反序列化
linux·网络
lay_liu2 小时前
ubuntu 安装 Redis
linux·redis·ubuntu
志栋智能2 小时前
超自动化巡检:应对复杂IT环境的必然选择
运维·网络·安全·web安全·自动化
li星野2 小时前
[特殊字符] Linux/嵌入式Linux面试模拟卷
linux·运维·面试