业务系统出现502错误,k8s dashboard也上不去了,执行命令
kubectl get all -n kubernetes-dashboard
发现很多evicted pod
业务pod基本正常,但进不去,估计是ingress的问题。于是查看ingress-controller节点的磁盘空间,发现只剩下14%了,而k8s缺省要求有15%以上,估计是节点空间不足,把ingress-controller部署到其它节点了,于是,清理一些日志:
# 1. 删除所有已停止容器的日志文件
find /var/lib/docker/containers -name "*.log" -type f -delete
# 2. 清理7天前的日志
find /var/lib/docker/containers -name "*.log" -type f -mtime +7 -delete
# 3. 清理大于100M的日志文件
find /var/lib/docker/containers -name "*.log" -type f -size +100M -delete
# 4. 安全清理(保留最近文件)
find /var/lib/docker/containers -name "*.log" \
-type f \
-mtime +30 \
-exec rm -f {} \;
#5 删除Evicted节点
kubectl delete pods --all-namespaces --field-selector=status.phase=Failed
再看磁盘空间有17%了,接着就生启ingress pod吧
kubectl rollout restart deployment -n ingress-nginx
再看业务系统正常了。
接下来就是扩充磁盘,减少日志等工作了。
# 查看节点是否处于磁盘压力状态
kubectl describe node <node-name> | grep -i "diskpressure"
# 查看事件
kubectl get events --field-selector involvedObject.kind=Node,involvedObject.name=<node-name>