怎么排查pod重启

1. 第一步:用 kubectl describe pod 抓重启关键信息

这是最直接的入口,能快速获取重启次数、原因和触发事件。

  • 执行命令:kubectl describe pod <Pod名称> -n <命名空间>
  • 重点看 3 处:
    • Restart Count:确认具体重启次数,判断是偶发还是高频重启。
    • Last State :显示上一次退出状态,若为 Error(代码错误)或 OOMKilled(内存溢出,高频原因),会直接标注。
    • Events 字段:底部会记录重启触发事件,比如 "健康检查失败(Readiness/ Liveness Probe Failed)""资源不足被驱逐" 等,原因一目了然。

2. 第二步:用 kubectl logs 查应用崩溃日志

若第一步发现是 Error 退出,必须通过日志定位代码或配置问题。

  • 查看崩溃前日志(关键):kubectl logs <Pod名称> -n <命名空间> --previous,这能获取 Pod 重启前的错误堆栈(如代码报错、配置文件缺失),是定位应用层问题的核心。
  • 实时查看日志:若 Pod 仍在反复重启,用 kubectl logs <Pod名称> -n <命名空间> -f 实时捕捉启动到崩溃的日志,观察是否卡在特定步骤(如连接依赖超时)。

3. 第三步:检查资源限制与健康检查配置

排除应用本身问题后,多数重启源于资源不足或健康检查误判。

  • 排查资源溢出:若 Last State 显示 OOMKilled,执行 kubectl top pod <Pod名称> -n <命名空间>,对比 Pod 的 resources.limits 配置,确认是否内存 / CPU 超限制(比如限制 1Gi 内存,实际用了 1.2Gi)。
  • 检查健康检查:若 Events 显示 "Probe Failed",查看 Pod 的 livenessProbe(存活检查)配置,比如端口写错、检查路径不存在,或应用启动慢导致 "启动中被误判为死锁而重启"(可拉长 initialDelaySeconds 解决)。
相关推荐
CodeStats2 分钟前
从 CPU 指令到 JVM 进程:彻底讲透 Java 执行 main 方法时,类加载、主线程、栈帧入栈的完整底层逻辑
java·linux·开发语言
asyxchenchong8881 小时前
最新Hermes Agent 技能封装与科研自动化:以 Meta-Analysis 为例-实现从文献检索到绘图的一站式工作流
运维·人工智能·自动化
tianyuanwo1 小时前
项目内自我管理:一名OS领域DevOps的破局之路
运维·devops
三十..1 小时前
Redis 核心原理与高可用架构实践
运维·数据库·redis
努力努力再努力wz2 小时前
【内存管理与高并发内存池系列】从 mmap 到 malloc:文件映射、匿名映射与 glibc 内存分配机制详解
linux·c语言·数据结构·数据库·c++·qt·链表
Jurio.3 小时前
开源 Codex Sticky:在终端 Codex CLI 长对话中始终固定底部输入框
linux·rust·github·开源软件·codex·codex cli
无足鸟ICT3 小时前
【RHCA+】撤销和恢复撤销快捷键
linux
质造者3 小时前
LangChain + Ollama + Tavily 实现旅游问答系统
linux·人工智能·python·langchain·rag
mN9B2uk173 小时前
大数据量高并发的数据库优化
服务器·数据库·oracle
starvapour3 小时前
Ubuntu部署gitlab频繁出现502的问题
linux·ubuntu·gitlab