K8S节点磁盘空间不足导致502错误的排除

业务系统出现502错误,k8s dashboard也上不去了,执行命令

复制代码
kubectl get all -n kubernetes-dashboard

发现很多evicted pod

业务pod基本正常,但进不去,估计是ingress的问题。于是查看ingress-controller节点的磁盘空间,发现只剩下14%了,而k8s缺省要求有15%以上,估计是节点空间不足,把ingress-controller部署到其它节点了,于是,清理一些日志:

复制代码
# 1. 删除所有已停止容器的日志文件
find /var/lib/docker/containers -name "*.log" -type f -delete

# 2. 清理7天前的日志
find /var/lib/docker/containers -name "*.log" -type f -mtime +7 -delete

# 3. 清理大于100M的日志文件
find /var/lib/docker/containers -name "*.log" -type f -size +100M -delete

# 4. 安全清理(保留最近文件)
find /var/lib/docker/containers -name "*.log" \
  -type f \
  -mtime +30 \
  -exec rm -f {} \;

#5 删除Evicted节点
kubectl delete pods --all-namespaces --field-selector=status.phase=Failed

再看磁盘空间有17%了,接着就生启ingress pod吧

复制代码
kubectl rollout restart deployment -n ingress-nginx

再看业务系统正常了。

接下来就是扩充磁盘,减少日志等工作了。

复制代码
# 查看节点是否处于磁盘压力状态
kubectl describe node <node-name> | grep -i "diskpressure"

# 查看事件
kubectl get events --field-selector involvedObject.kind=Node,involvedObject.name=<node-name>
相关推荐
AI攻城狮21 小时前
OpenFang 给我的一个提醒:AI Agent 真正难的不是自主,而是治理
人工智能·云原生·aigc
Java陈序员1 天前
轻量强大!一款现代化的 Kubernetes 集群管理与监控工具!
云原生·容器·kubernetes
Johny_Zhao2 天前
OpenClaw中级到高级教程
linux·人工智能·信息安全·kubernetes·云计算·yum源·系统运维·openclaw
AI攻城狮3 天前
OpenClaw 里 TAVILY_API_KEY 明明写在 ~/.bashrc,为什么还是失效?一次完整排查与修复
人工智能·云原生·aigc
Sheffield3 天前
Alpine是什么,为什么是Docker首选?
linux·docker·容器
阿里云云原生4 天前
零配置部署顶级模型!函数计算一键解锁 Qwen3.5
云原生
AI攻城狮4 天前
Kimi Bot + OpenClaw 完整配置指南:5 步实现本地 AI Agent 集成
人工智能·云原生·aigc
AI攻城狮5 天前
RAG Chunking 为什么这么难?5 大挑战 + 最佳实践指南
人工智能·云原生·aigc
可观测性用观测云6 天前
云原生网关 Ingress-Nginx 链路追踪实战:OpenTelemetry 采集与观测云集成方案
nginx·kubernetes
哈里谢顿6 天前
Kubernetes Operator核心概念、实现原理和实战开发
云原生