服务器网络连接突然暴增如何分析

当服务器的网络连接数突然从几百飙升到 25000,导致服务不可用时,这通常意味着某个服务或客户端出现了异常行为(如连接泄漏、DDoS 攻击、错误配置、死循环等)。要快速定位问题服务,可以按照以下步骤进行排查:

一、初步判断:确认是入站还是出站连接暴增

bash 复制代码
# 查看当前所有 TCP 连接数量及状态
ss -s
# 或
netstat -an | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'

如果 ESTABLISHED 数量激增 → 很可能是正常业务连接堆积(比如后端响应慢,前端不断重试)。

如果 TIME_WAIT / CLOSE_WAIT 激增 → 可能是连接未正确释放(程序 bug 或资源不足)。

二、定位连接来源与目标

1.查看连接的远程 IP 和端口分布

bash 复制代码
# 查看连接最多的远程 IP
ss -tn | awk 'NR>1 {print $5}' | cut -d: -f1 | sort | uniq -c | sort -nr | head -20

# 查看本地监听端口的连接数(按本地端口聚合)
ss -tn | awk 'NR>1 {print $4}' | cut -d: -f2 | sort | uniq -c | sort -nr | head -20

如果某一个 本地端口(如 8080、9090)连接数极高 → 该端口对应的服务很可能是"受害者"或"问题源"。

如果大量连接来自 少数几个 IP → 可能是恶意攻击或某个客户端异常。

如果连接分散但都指向同一个后端服务 → 说明上游服务调用下游时未复用连接(连接池配置错误)。

  1. 结合进程 ID 定位具体服务
bash 复制代码
# 查看每个进程打开的 TCP 连接数
lsof -iTCP -sTCP:ESTABLISHED | awk '{print $2}' | sort | uniq -c | sort -nr | head -10

# 或使用 ss + pid
ss -tnp | awk 'NR>1 {print $7}' | grep -o "pid=[0-9]*" | sort | uniq -c | sort -nr

然后根据 PID 查进程名:

bash 复制代码
ps -p <PID> -o pid,ppid,cmd,%mem,%cpu

三、结合日志和监控进一步分析

  1. 检查应用日志
    查看高连接端口对应服务的日志,是否有异常请求、超时、频繁重试、未关闭连接等。
    特别注意是否有 短连接风暴(大量短生命周期连接)或 连接未 close 的 warn/error。
  2. 检查连接池配置(如果是 Java/Go/Python 等服务)
    是否设置了合理的最大连接数?
    是否启用了 keep-alive?
    HTTP 客户端是否每次都新建连接而不是复用?
  3. 使用 APM 或链路追踪(如 SkyWalking、Jaeger、Zipkin)
    查看哪个服务的 入口 QPS 异常升高 或 出口连接数暴增。
    定位是 调用方 还是 被调用方 的问题。

四、临时缓解措施

限流:对异常 IP 或接口做限流(Nginx、iptables、API 网关)。

重启可疑服务:如果确认是某个服务连接泄漏,可临时重启。

调整内核参数(谨慎):

bash 复制代码
# 增加可用端口范围(针对出站连接多)
echo 'net.ipv4.ip_local_port_range = 1024 65535' >> /etc/sysctl.conf
# 减少 TIME_WAIT 保持时间
echo 'net.ipv4.tcp_fin_timeout = 30' >> /etc/sysctl.conf
sysctl -p

五、事后复盘建议

引入 连接数监控告警(如 Prometheus + Node Exporter 监控 node_netstat_Tcp_CurrEstab)。

对所有服务设置 最大并发连接限制。

审查客户端/服务端的 连接管理逻辑(尤其是 HTTP client、数据库连接池、gRPC client)。

总结排查路径:

连接暴增 → 看端口分布 → 看进程 PID → 看日志/代码 → 看调用链 → 定位问题服务

相关推荐
zzzzzz31011 小时前
9K Star 炸裂开源!这个 C 语言写的代码知识图谱,把 Linux 内核索引压缩到了 3 分钟
linux·服务器·sql
XIAOHEZIcode11 小时前
Linux系统鼠标偏移常见原因以及修复方案
linux·运维·游戏
用户0328472220701 天前
如何搭建本地yum源(上)
运维
大树884 天前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
摇滚侠4 天前
Linux CentOS7 rpm 安装 MySQL 5.7
linux·运维·mysql
霸道流氓气质4 天前
领域驱动设计(DDD)在 Spring Boot 微服务中的实践指南
运维·spring boot·微服务
小宇宙Zz4 天前
Maven依赖冲突
java·服务器·maven
Inhand陈工4 天前
基于台达PLC与映翰通IG502的智慧水产养殖精准投喂与远程运维解决方案
运维·人工智能·物联网·阿里云·信息与通信
酣大智4 天前
ARP代理--工作原理
运维·网络·arp·arp代理
shushangyun_4 天前
2026年快消品B2B系统推荐:支持终端门店订货、促销政策自动化的工具?
java·运维·网络·数据库·人工智能·spring·自动化