k8s node inode被耗尽如何处理?

当 Kubernetes 节点因 inode 被耗尽导致 Pod 无法调度或运行异常时,需结合 Kubernetes 特性和 Linux 系统管理方法处理。以下是详细步骤:

1. 确认 inode 耗尽

首先登录问题节点,检查 inode 使用率:

复制代码
# 查看全局 inode 使用情况
df -i

# 输出示例:
Filesystem     Inodes   IUsed  IFree IUse% Mounted on
/dev/nvme0n1p1 5242880 5242880     0  100% /var/lib/docker

IUse% 达到 100%,说明 inode 已耗尽。

2. 快速清理 inode

(1) 清理 Kubernetes 相关临时文件

终止状态的 Pod

复制代码
kubectl delete pod --field-selector=status.phase=Failed --all-namespaces

残留的容器和镜像

复制代码
# 清理未运行的容器和悬空镜像
docker system prune -af  # Docker 运行时
crictl rmi --prune       # Containerd 运行时
(2) 清理系统日志和 Pod 日志

Kubernetes Pod 日志

复制代码
# 清理 /var/log/pods 中的旧日志
sudo find /var/log/pods -name "*.log" -type f -mtime +7 -delete

系统日志

复制代码
sudo journalctl --vacuum-time=7d  # 保留最近 7 天日志
sudo rm -rf /var/log/journal/*    # 手动清理日志文件
(3) 清理 Docker/Containerd 存储

检查 Docker 存储目录

复制代码
sudo du -sh /var/lib/docker/overlay2/* | sort -rh

删除无效的容器层目录(确认无活跃容器使用后):

复制代码
sudo rm -rf /var/lib/docker/overlay2/<hash>-*

3. 定位 inode 占用来源

(1) 查找小文件密集目录
复制代码
# 统计根目录下各子目录的 inode 数量
sudo find / -xdev -type f | cut -d "/" -f 2 | sort | uniq -c | sort -nr
复制代码
# 常见高 inode 目录:
# - /var/lib/docker/overlay2(容器层)
# - /var/lib/kubelet/pods(Pod 数据)
# - /var/log/pods(Pod 日志)
(2) 使用 ncdu 工具可视化分析
复制代码
sudo ncdu /  # 扫描根目录

Enter 进入子目录,按 d 删除无用文件。

4. Kubernetes 相关配置优化

(1) 限制 Pod 日志大小

在 Pod 配置中限制日志卷大小:

复制代码
apiVersion: v1
kind: Pod
metadata:
  name: mypod
spec:
  containers:
  - name: mycontainer
    image: nginx
    volumeMounts:
    - name: log-volume
      mountPath: /var/log/nginx
  volumes:
  - name: log-volume
    emptyDir:
      sizeLimit: 100Mi  # 限制日志目录大小
(2) 配置 kubelet 自动清理镜像

修改 kubelet 参数,定期回收未使用的镜像:

复制代码
# 编辑 kubelet 配置文件(如 /etc/kubernetes/kubelet.conf)
--image-gc-high-threshold=85  # 当磁盘使用率超过 85% 时触发清理
--image-gc-low-threshold=80   # 清理至磁盘使用率降至 80%

5. 长期预防措施

(1) 监控 inode 使用率

部署 Node Exporter + Prometheus + Grafana

  • 通过 Node Exporter 采集节点 inode 指标。

  • 设置告警规则(例如 node_filesystem_files_free{device!~"tmpfs"} < 1000)。

(2) 定期清理任务

创建 CronJob 自动清理旧文件:

复制代码
apiVersion: batch/v1
kind: CronJob
metadata:
  name: log-cleaner
spec:
  schedule: "0 0 * * *"
  jobTemplate:
    spec:
      template:
        spec:
          containers:
          - name: cleaner
            image: alpine
            command:
            - /bin/sh
            - -c
            - find /var/log/pods -name "*.log" -mtime +7 -delete
          restartPolicy: OnFailure
          hostPID: true
          hostNetwork: true
          volumes:
          - name: host-log
            hostPath:
              path: /var/log/pods
(3) 调整文件系统 inode 数量(谨慎操作)

如果节点磁盘允许重新格式化,可调整 inode 密度:

复制代码
# 格式化 ext4 文件系统时指定更小的 inode 比例(增加 inode 总数)
mkfs.ext4 -i 8192 /dev/sdb1  # 默认 16384 bytes/inode

注意:此操作会清空磁盘数据,仅适用于新节点或非生产环境!

6. 扩展磁盘或迁移负载

  • 扩容磁盘:直接扩展节点磁盘大小(云环境通常支持在线扩容)。

  • 迁移 Pod:将 Pod 调度到其他节点:

    复制代码
    kubectl drain <node-name> --ignore-daemonsets  # 排空节点
    kubectl uncordon <node-name>                   # 恢复节点

总结

  • 应急处理:清理 Pod 日志、容器残留文件和系统日志。

  • 根因分析 :通过 findncdu 定位小文件密集目录。

  • 预防措施:监控 inode、限制日志大小、定期清理任务。

  • 终极方案:扩容磁盘或调整文件系统 inode 分配。

相关推荐
佳腾_3 小时前
【高性能缓存Redis_中间件】三、redis 精通:性能优化与生产实践
redis·缓存·云原生·中间件·云计算
qq_413691353 小时前
CI/CD(十) Jenkins共享库与k8s集成
ci/cd·kubernetes·jenkins
爱的叹息3 小时前
云原生(Cloud Native)的详解、开发流程及同类软件对比
云原生
SteveRocket3 小时前
开源项目 | 17款云原生安全相关的扫描和平台类开源工具
安全·云原生·开源
Spring_java_gg4 小时前
组件和容器之争?|WebAssembly + Kubernetes:云原生的新组合
云原生·容器·kubernetes·wasm
code@fzk4 小时前
Docker详细使用
linux·运维·docker·容器·shell
菜就多练吧5 小时前
zk(Zookeeper)实现分布式锁
分布式·zookeeper·云原生
Lonwayne16 小时前
SaaS、Paas、IaaS、MaaS、BaaS五大云计算服务模式
云原生·云计算·paas·程序那些事
向哆哆19 小时前
Java + Kubernetes:云原生时代的开发与运维
java·云原生·kubernetes