怎么排查pod重启

杰克逊的日记2025-12-14 18:47

1. 第一步：用 `kubectl describe pod` 抓重启关键信息

这是最直接的入口，能快速获取重启次数、原因和触发事件。

执行命令：kubectl describe pod <Pod名称> -n <命名空间>。
重点看 3 处：
- Restart Count：确认具体重启次数，判断是偶发还是高频重启。
- Last State ：显示上一次退出状态，若为 Error（代码错误）或 OOMKilled（内存溢出，高频原因），会直接标注。
- Events 字段：底部会记录重启触发事件，比如 "健康检查失败（Readiness/ Liveness Probe Failed）""资源不足被驱逐" 等，原因一目了然。

2. 第二步：用 `kubectl logs` 查应用崩溃日志

若第一步发现是 Error 退出，必须通过日志定位代码或配置问题。

查看崩溃前日志（关键）：kubectl logs <Pod名称> -n <命名空间> --previous，这能获取 Pod 重启前的错误堆栈（如代码报错、配置文件缺失），是定位应用层问题的核心。
实时查看日志：若 Pod 仍在反复重启，用 kubectl logs <Pod名称> -n <命名空间> -f 实时捕捉启动到崩溃的日志，观察是否卡在特定步骤（如连接依赖超时）。

3. 第三步：检查资源限制与健康检查配置

排除应用本身问题后，多数重启源于资源不足或健康检查误判。

排查资源溢出：若 Last State 显示 OOMKilled，执行 kubectl top pod <Pod名称> -n <命名空间>，对比 Pod 的 resources.limits 配置，确认是否内存 / CPU 超限制（比如限制 1Gi 内存，实际用了 1.2Gi）。
检查健康检查：若 Events 显示 "Probe Failed"，查看 Pod 的 livenessProbe（存活检查）配置，比如端口写错、检查路径不存在，或应用启动慢导致 "启动中被误判为死锁而重启"（可拉长 initialDelaySeconds 解决）。

上一篇：FTP、FTPS 和 SFTP 的区别

下一篇：【番茄病害检测】基于Faster R-CNN的番茄黄叶卷曲病毒智能识别系统，完整实现与代码解析

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 092026 年 AI 大模型 & AI 编程工具实战全总结 10Kimi K3 真实体验：全网评价整理，优缺点一次性说清楚