服务器网络连接突然暴增如何分析

当服务器的网络连接数突然从几百飙升到 25000,导致服务不可用时,这通常意味着某个服务或客户端出现了异常行为(如连接泄漏、DDoS 攻击、错误配置、死循环等)。要快速定位问题服务,可以按照以下步骤进行排查:

一、初步判断:确认是入站还是出站连接暴增

bash 复制代码
# 查看当前所有 TCP 连接数量及状态
ss -s
# 或
netstat -an | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'

如果 ESTABLISHED 数量激增 → 很可能是正常业务连接堆积(比如后端响应慢,前端不断重试)。

如果 TIME_WAIT / CLOSE_WAIT 激增 → 可能是连接未正确释放(程序 bug 或资源不足)。

二、定位连接来源与目标

1.查看连接的远程 IP 和端口分布

bash 复制代码
# 查看连接最多的远程 IP
ss -tn | awk 'NR>1 {print $5}' | cut -d: -f1 | sort | uniq -c | sort -nr | head -20

# 查看本地监听端口的连接数(按本地端口聚合)
ss -tn | awk 'NR>1 {print $4}' | cut -d: -f2 | sort | uniq -c | sort -nr | head -20

如果某一个 本地端口(如 8080、9090)连接数极高 → 该端口对应的服务很可能是"受害者"或"问题源"。

如果大量连接来自 少数几个 IP → 可能是恶意攻击或某个客户端异常。

如果连接分散但都指向同一个后端服务 → 说明上游服务调用下游时未复用连接(连接池配置错误)。

  1. 结合进程 ID 定位具体服务
bash 复制代码
# 查看每个进程打开的 TCP 连接数
lsof -iTCP -sTCP:ESTABLISHED | awk '{print $2}' | sort | uniq -c | sort -nr | head -10

# 或使用 ss + pid
ss -tnp | awk 'NR>1 {print $7}' | grep -o "pid=[0-9]*" | sort | uniq -c | sort -nr

然后根据 PID 查进程名:

bash 复制代码
ps -p <PID> -o pid,ppid,cmd,%mem,%cpu

三、结合日志和监控进一步分析

  1. 检查应用日志
    查看高连接端口对应服务的日志,是否有异常请求、超时、频繁重试、未关闭连接等。
    特别注意是否有 短连接风暴(大量短生命周期连接)或 连接未 close 的 warn/error。
  2. 检查连接池配置(如果是 Java/Go/Python 等服务)
    是否设置了合理的最大连接数?
    是否启用了 keep-alive?
    HTTP 客户端是否每次都新建连接而不是复用?
  3. 使用 APM 或链路追踪(如 SkyWalking、Jaeger、Zipkin)
    查看哪个服务的 入口 QPS 异常升高 或 出口连接数暴增。
    定位是 调用方 还是 被调用方 的问题。

四、临时缓解措施

限流:对异常 IP 或接口做限流(Nginx、iptables、API 网关)。

重启可疑服务:如果确认是某个服务连接泄漏,可临时重启。

调整内核参数(谨慎):

bash 复制代码
# 增加可用端口范围(针对出站连接多)
echo 'net.ipv4.ip_local_port_range = 1024 65535' >> /etc/sysctl.conf
# 减少 TIME_WAIT 保持时间
echo 'net.ipv4.tcp_fin_timeout = 30' >> /etc/sysctl.conf
sysctl -p

五、事后复盘建议

引入 连接数监控告警(如 Prometheus + Node Exporter 监控 node_netstat_Tcp_CurrEstab)。

对所有服务设置 最大并发连接限制。

审查客户端/服务端的 连接管理逻辑(尤其是 HTTP client、数据库连接池、gRPC client)。

总结排查路径:

连接暴增 → 看端口分布 → 看进程 PID → 看日志/代码 → 看调用链 → 定位问题服务

相关推荐
峥无28 分钟前
Linux系统编程基石:静态库·动态库·ELF文件·进程地址空间全景图
linux·运维·服务器
码云数智-大飞42 分钟前
本地部署大模型:隐私安全与多元优势一站式解读
运维·网络·人工智能
Harvy_没救了2 小时前
【网络部署】 Win11 + VMware CentOS8 + Nginx 文件共享服务 Wiki
运维·网络·nginx
春风有信2 小时前
【2026.05.01】Windows10安装Docker Desktop 4.71.0.0步骤及问题解决
运维·docker·容器
lzhdim2 小时前
SQL 入门 12:SQL 视图:创建、修改与可更新视图
java·大数据·服务器·数据库·sql
2401_873479403 小时前
断网时如何实时判断IP归属?嵌入本地离线库,保障风控不中断
运维·服务器·网络
守城小轩3 小时前
基于Chrome140的Yahoo自动化(关键词浏览)——需求分析&环境搭建(一)
运维·自动化·chrome devtools·浏览器自动化·指纹浏览器·浏览器开发
handler013 小时前
Linux 内核剖析:进程优先级、上下文切换与 O(1) 调度算法
linux·运维·c语言·开发语言·c++·笔记·算法
草履虫君5 小时前
VMware 虚拟机网络性能优化指南:从 11 秒到 4 秒的完整调优实践
服务器·网络·经验分享·性能优化
日取其半万世不竭5 小时前
LVM 逻辑卷管理:不停机扩容磁盘的正确方式
运维·服务器