1. 第一步:用 kubectl describe pod 抓重启关键信息
这是最直接的入口,能快速获取重启次数、原因和触发事件。
- 执行命令:
kubectl describe pod <Pod名称> -n <命名空间>。 - 重点看 3 处:
- Restart Count:确认具体重启次数,判断是偶发还是高频重启。
- Last State :显示上一次退出状态,若为
Error(代码错误)或OOMKilled(内存溢出,高频原因),会直接标注。 - Events 字段:底部会记录重启触发事件,比如 "健康检查失败(Readiness/ Liveness Probe Failed)""资源不足被驱逐" 等,原因一目了然。
2. 第二步:用 kubectl logs 查应用崩溃日志
若第一步发现是 Error 退出,必须通过日志定位代码或配置问题。
- 查看崩溃前日志(关键):
kubectl logs <Pod名称> -n <命名空间> --previous,这能获取 Pod 重启前的错误堆栈(如代码报错、配置文件缺失),是定位应用层问题的核心。 - 实时查看日志:若 Pod 仍在反复重启,用
kubectl logs <Pod名称> -n <命名空间> -f实时捕捉启动到崩溃的日志,观察是否卡在特定步骤(如连接依赖超时)。
3. 第三步:检查资源限制与健康检查配置
排除应用本身问题后,多数重启源于资源不足或健康检查误判。
- 排查资源溢出:若
Last State显示OOMKilled,执行kubectl top pod <Pod名称> -n <命名空间>,对比 Pod 的resources.limits配置,确认是否内存 / CPU 超限制(比如限制 1Gi 内存,实际用了 1.2Gi)。 - 检查健康检查:若 Events 显示 "Probe Failed",查看 Pod 的
livenessProbe(存活检查)配置,比如端口写错、检查路径不存在,或应用启动慢导致 "启动中被误判为死锁而重启"(可拉长initialDelaySeconds解决)。