linux排障:服务端口被打满

事故描述

promotion请求其他服务异常,业务日志报错:"cannot assign requested address"

排障过程

1、

bash 复制代码
netstat -nap | grep ESTABLISHED | wc -l

发现很多链接没有释放,通常这个连接数就几十个

2、

bash 复制代码
#可用临时端口范围
cat /proc/sys/net/ipv4/ip_local_port_range
#当前用户进程可以打开的文件描述符数量,即单个进程能同时建立的连接数数量
ulimit -n
#空闲多少秒后开始发送 keepalive 探测包
cat /proc/sys/net/ipv4/tcp_keepalive_time

发现容器提供的端口有28232个,可以打开的文件描述符为1048576,系统默认keepalive时间为7200s。

事故原因

初步判断短时间内创建大量链接,且在处理完请求后tcp链接没有释放,导致端口被占用完。

于是抓包分析,发现在服务端没有抓到FIN包,并且出现很多keep-alive的报文,怀疑关闭链接的方法有问题或者没生效。经过讨论和测试,发现后端使用的框架里面有一个tcp链接keepalive的相关的配置:

后面将配置改为disablekeepalive: true 关闭了keepalive功能。经过测试已经正常,再运行脚本的时候,tcp链接数已经稳定。

相关推荐
杨云龙UP29 分钟前
ODA运维实战:Oracle 19c YJXT PDB表空间在线扩容全过程_20260503
linux·运维·服务器·数据库·oracle
郝学胜-神的一滴33 分钟前
跨平台动态库与头文件:从原理到命名的深度解析
linux·c++·程序人生·unix·cmake
love you joyfully1 小时前
如何随时随地访问你的“进程”?
网络·人工智能·网络安全·远程访问·网络技术
yyuuuzz1 小时前
aws 基础认知与实践注意点
运维·服务器·网络·云计算·github·aws
Rust语言中文社区1 小时前
【Rust日报】2026-05-02 Temper - 用 Rust 编写的 Minecraft 服务器项目发布 0.1.0 版
运维·服务器·开发语言·后端·rust
ATCH IERV1 小时前
Java实战:Spring Boot application.yml配置文件详解
java·网络·spring boot
吠品1 小时前
高性能JS数组操作:何时选用push、unshift、splice或扩展运算符?
linux·服务器·数据库
fish_xk2 小时前
Linux中的指令和权限
linux·运维·服务器
暴力求解2 小时前
Linux---内核态
linux·运维·服务器
锅挤2 小时前
计算机网络复习(第五章):传输层
网络·计算机网络