k8s node inode被耗尽如何处理?

当 Kubernetes 节点因 inode 被耗尽导致 Pod 无法调度或运行异常时,需结合 Kubernetes 特性和 Linux 系统管理方法处理。以下是详细步骤:

1. 确认 inode 耗尽

首先登录问题节点,检查 inode 使用率:

复制代码
# 查看全局 inode 使用情况
df -i

# 输出示例:
Filesystem     Inodes   IUsed  IFree IUse% Mounted on
/dev/nvme0n1p1 5242880 5242880     0  100% /var/lib/docker

IUse% 达到 100%,说明 inode 已耗尽。

2. 快速清理 inode

(1) 清理 Kubernetes 相关临时文件

终止状态的 Pod

复制代码
kubectl delete pod --field-selector=status.phase=Failed --all-namespaces

残留的容器和镜像

复制代码
# 清理未运行的容器和悬空镜像
docker system prune -af  # Docker 运行时
crictl rmi --prune       # Containerd 运行时
(2) 清理系统日志和 Pod 日志

Kubernetes Pod 日志

复制代码
# 清理 /var/log/pods 中的旧日志
sudo find /var/log/pods -name "*.log" -type f -mtime +7 -delete

系统日志

复制代码
sudo journalctl --vacuum-time=7d  # 保留最近 7 天日志
sudo rm -rf /var/log/journal/*    # 手动清理日志文件
(3) 清理 Docker/Containerd 存储

检查 Docker 存储目录

复制代码
sudo du -sh /var/lib/docker/overlay2/* | sort -rh

删除无效的容器层目录(确认无活跃容器使用后):

复制代码
sudo rm -rf /var/lib/docker/overlay2/<hash>-*

3. 定位 inode 占用来源

(1) 查找小文件密集目录
复制代码
# 统计根目录下各子目录的 inode 数量
sudo find / -xdev -type f | cut -d "/" -f 2 | sort | uniq -c | sort -nr
复制代码
# 常见高 inode 目录:
# - /var/lib/docker/overlay2(容器层)
# - /var/lib/kubelet/pods(Pod 数据)
# - /var/log/pods(Pod 日志)
(2) 使用 ncdu 工具可视化分析
复制代码
sudo ncdu /  # 扫描根目录

Enter 进入子目录,按 d 删除无用文件。

4. Kubernetes 相关配置优化

(1) 限制 Pod 日志大小

在 Pod 配置中限制日志卷大小:

复制代码
apiVersion: v1
kind: Pod
metadata:
  name: mypod
spec:
  containers:
  - name: mycontainer
    image: nginx
    volumeMounts:
    - name: log-volume
      mountPath: /var/log/nginx
  volumes:
  - name: log-volume
    emptyDir:
      sizeLimit: 100Mi  # 限制日志目录大小
(2) 配置 kubelet 自动清理镜像

修改 kubelet 参数,定期回收未使用的镜像:

复制代码
# 编辑 kubelet 配置文件(如 /etc/kubernetes/kubelet.conf)
--image-gc-high-threshold=85  # 当磁盘使用率超过 85% 时触发清理
--image-gc-low-threshold=80   # 清理至磁盘使用率降至 80%

5. 长期预防措施

(1) 监控 inode 使用率

部署 Node Exporter + Prometheus + Grafana

  • 通过 Node Exporter 采集节点 inode 指标。

  • 设置告警规则(例如 node_filesystem_files_free{device!~"tmpfs"} < 1000)。

(2) 定期清理任务

创建 CronJob 自动清理旧文件:

复制代码
apiVersion: batch/v1
kind: CronJob
metadata:
  name: log-cleaner
spec:
  schedule: "0 0 * * *"
  jobTemplate:
    spec:
      template:
        spec:
          containers:
          - name: cleaner
            image: alpine
            command:
            - /bin/sh
            - -c
            - find /var/log/pods -name "*.log" -mtime +7 -delete
          restartPolicy: OnFailure
          hostPID: true
          hostNetwork: true
          volumes:
          - name: host-log
            hostPath:
              path: /var/log/pods
(3) 调整文件系统 inode 数量(谨慎操作)

如果节点磁盘允许重新格式化,可调整 inode 密度:

复制代码
# 格式化 ext4 文件系统时指定更小的 inode 比例(增加 inode 总数)
mkfs.ext4 -i 8192 /dev/sdb1  # 默认 16384 bytes/inode

注意:此操作会清空磁盘数据,仅适用于新节点或非生产环境!

6. 扩展磁盘或迁移负载

  • 扩容磁盘:直接扩展节点磁盘大小(云环境通常支持在线扩容)。

  • 迁移 Pod:将 Pod 调度到其他节点:

    复制代码
    kubectl drain <node-name> --ignore-daemonsets  # 排空节点
    kubectl uncordon <node-name>                   # 恢复节点

总结

  • 应急处理:清理 Pod 日志、容器残留文件和系统日志。

  • 根因分析 :通过 findncdu 定位小文件密集目录。

  • 预防措施:监控 inode、限制日志大小、定期清理任务。

  • 终极方案:扩容磁盘或调整文件系统 inode 分配。

相关推荐
EverydayJoy^v^5 小时前
RH134学习进程——十二.运行容器(1)
linux·运维·容器
java_logo6 小时前
OpenProject Docker 容器化部署指南:从快速启动到生产环境配置
docker·容器·openproject·openproject部署·openproject部署手册·openproject部署方案·openproject部署教程
cg_ssh9 小时前
Docker 下启动 Nacos 3.1.1 单机模式
运维·docker·容器
修己xj9 小时前
使用 Docker 部署 SQL Server 并导入 .mdb 文件的完整指南
运维·docker·容器
迎仔13 小时前
13-云原生大数据架构介绍:大数据世界的“弹性城市”
大数据·云原生·架构
小码哥06813 小时前
代驾系统微服务容器化部署与灰度发布流程
微服务·云原生·代驾系统·代驾·代驾服务·同城代驾
江畔何人初14 小时前
k8s静态pod
云原生·容器·kubernetes
硅基流动14 小时前
从云原生到 AI 的跃迁探索之路|开发者说
大数据·人工智能·云原生
小二·15 小时前
Go 语言系统编程与云原生开发实战(第10篇)性能调优实战:Profiling × 内存优化 × 高并发压测(万级 QPS 实录)
开发语言·云原生·golang
u01040583616 小时前
淘客返利系统的CI/CD流水线搭建:Docker镜像构建与K8s部署实践
ci/cd·docker·kubernetes