linux排障:服务端口被打满

事故描述

promotion请求其他服务异常,业务日志报错:"cannot assign requested address"

排障过程

1、

bash 复制代码
netstat -nap | grep ESTABLISHED | wc -l

发现很多链接没有释放,通常这个连接数就几十个

2、

bash 复制代码
#可用临时端口范围
cat /proc/sys/net/ipv4/ip_local_port_range
#当前用户进程可以打开的文件描述符数量,即单个进程能同时建立的连接数数量
ulimit -n
#空闲多少秒后开始发送 keepalive 探测包
cat /proc/sys/net/ipv4/tcp_keepalive_time

发现容器提供的端口有28232个,可以打开的文件描述符为1048576,系统默认keepalive时间为7200s。

事故原因

初步判断短时间内创建大量链接,且在处理完请求后tcp链接没有释放,导致端口被占用完。

于是抓包分析,发现在服务端没有抓到FIN包,并且出现很多keep-alive的报文,怀疑关闭链接的方法有问题或者没生效。经过讨论和测试,发现后端使用的框架里面有一个tcp链接keepalive的相关的配置:

后面将配置改为disablekeepalive: true 关闭了keepalive功能。经过测试已经正常,再运行脚本的时候,tcp链接数已经稳定。

相关推荐
AlfredZhao2 天前
生产环境里,为什么不建议把普通端口直接暴露到公网?
linux·https·443·80
戴为沐3 天前
Linux内存扩容指南
linux
zylyehuo3 天前
Linux 彻底且安全地删除文件
linux
用户805533698034 天前
主线 U-Boot 上 RK3506:和闭源 rkbin 拔河的三个隐性契约
linux·嵌入式
用户034095297914 天前
linux fcitx 5 雾凇拼音 设置在中文输入法下仍然输入英文标点
linux
Web3探索者6 天前
可视化服务器管理和传统命令行区别是什么?新手教程:Linux 运维到底该用图形界面还是 SSH 命令行?
linux·ssh
zylyehuo6 天前
Linux系统中网线与USB网络共享冲突
linux
Sokach10157 天前
Linux Shell 脚本从零到能用:一个新手的一天学习总结
linux
AlfredZhao8 天前
Docker 容器时区不对,`timedatectl` 不存在怎么办?
linux·timezone
zzzzzz3109 天前
9K Star 炸裂开源!这个 C 语言写的代码知识图谱,把 Linux 内核索引压缩到了 3 分钟
linux·服务器·sql