K8S节点磁盘空间不足导致502错误的排除

无级程序员2026-01-24 8:53

业务系统出现502错误，k8s dashboard也上不去了，执行命令

复制代码

kubectl get all -n kubernetes-dashboard

发现很多evicted pod

业务pod基本正常，但进不去，估计是ingress的问题。于是查看ingress-controller节点的磁盘空间，发现只剩下14%了，而k8s缺省要求有15%以上，估计是节点空间不足，把ingress-controller部署到其它节点了，于是，清理一些日志：

复制代码

# 1. 删除所有已停止容器的日志文件
find /var/lib/docker/containers -name "*.log" -type f -delete

# 2. 清理7天前的日志
find /var/lib/docker/containers -name "*.log" -type f -mtime +7 -delete

# 3. 清理大于100M的日志文件
find /var/lib/docker/containers -name "*.log" -type f -size +100M -delete

# 4. 安全清理（保留最近文件）
find /var/lib/docker/containers -name "*.log" \
  -type f \
  -mtime +30 \
  -exec rm -f {} \;

#5 删除Evicted节点
kubectl delete pods --all-namespaces --field-selector=status.phase=Failed

再看磁盘空间有17%了，接着就生启ingress pod吧

复制代码

kubectl rollout restart deployment -n ingress-nginx

再看业务系统正常了。

接下来就是扩充磁盘，减少日志等工作了。

复制代码

# 查看节点是否处于磁盘压力状态
kubectl describe node <node-name> | grep -i "diskpressure"

# 查看事件
kubectl get events --field-selector involvedObject.kind=Node,involvedObject.name=<node-name>