怎么排查pod重启

1. 第一步:用 kubectl describe pod 抓重启关键信息

这是最直接的入口,能快速获取重启次数、原因和触发事件。

  • 执行命令:kubectl describe pod <Pod名称> -n <命名空间>
  • 重点看 3 处:
    • Restart Count:确认具体重启次数,判断是偶发还是高频重启。
    • Last State :显示上一次退出状态,若为 Error(代码错误)或 OOMKilled(内存溢出,高频原因),会直接标注。
    • Events 字段:底部会记录重启触发事件,比如 "健康检查失败(Readiness/ Liveness Probe Failed)""资源不足被驱逐" 等,原因一目了然。

2. 第二步:用 kubectl logs 查应用崩溃日志

若第一步发现是 Error 退出,必须通过日志定位代码或配置问题。

  • 查看崩溃前日志(关键):kubectl logs <Pod名称> -n <命名空间> --previous,这能获取 Pod 重启前的错误堆栈(如代码报错、配置文件缺失),是定位应用层问题的核心。
  • 实时查看日志:若 Pod 仍在反复重启,用 kubectl logs <Pod名称> -n <命名空间> -f 实时捕捉启动到崩溃的日志,观察是否卡在特定步骤(如连接依赖超时)。

3. 第三步:检查资源限制与健康检查配置

排除应用本身问题后,多数重启源于资源不足或健康检查误判。

  • 排查资源溢出:若 Last State 显示 OOMKilled,执行 kubectl top pod <Pod名称> -n <命名空间>,对比 Pod 的 resources.limits 配置,确认是否内存 / CPU 超限制(比如限制 1Gi 内存,实际用了 1.2Gi)。
  • 检查健康检查:若 Events 显示 "Probe Failed",查看 Pod 的 livenessProbe(存活检查)配置,比如端口写错、检查路径不存在,或应用启动慢导致 "启动中被误判为死锁而重启"(可拉长 initialDelaySeconds 解决)。
相关推荐
小猿姐2 小时前
唯品会大规模数据库云原生实践:基于 KubeBlocks 管理数千实例的统一运维之路
运维·elasticsearch·云原生
七歌杜金房7 小时前
我终于又有了自己的 Linux 电脑
linux·debian·mac
SkyWalking中文站14 小时前
认识 Horizon UI · 5/17:3D 基础设施地图
运维·监控·自动化运维
tntxia1 天前
linux curl命令详解_curl详解
linux
扛枪的书生1 天前
Linux 网络管理器用法速查
linux
SkyWalking中文站1 天前
认识 Horizon UI · 1/17:SkyWalking 新一代可观测性控制台
运维·前端·监控
顺风尿一寸2 天前
Java Socket 内核之旅:从 SocketChannel.read() 到 tcp_recvmsg 与 epoll 的完整调用链路
linux
雪梨酱QAQ2 天前
Kubeneters HA Cluster部署
运维
江华森2 天前
Spring Cloud 微服务全栈实战:从 Eureka 到 Docker Compose 一文贯通
运维
江华森2 天前
Matplotlib 数据绘图基础入门
运维