创建 Pod 失败，运行时报错 no space left on device？

遇到创建Pod失败并报错"no space left on device"时，请按照以下步骤排查和解决问题：

查看Pod事件：

复制代码

kubectl describe pod <pod-name> -n <namespace>

在输出中查找 Events 部分，确认错误是否与节点磁盘、存储卷（PVC）或容器镜像层相关。

登录问题节点：

复制代码

ssh <node-ip>

查看磁盘使用情况：

复制代码

df -h  # 检查磁盘空间
df -i  # 检查Inode使用

重点关注以下目录：

清理未使用的Docker资源：

复制代码

docker system prune -af  # 清理镜像、容器、卷等（谨慎操作）

手动删除大文件或日志：

复制代码

du -sh /var/lib/docker/* | sort -rh  # 查找大文件
rm -rf /var/lib/docker/overlay2/<hash>  # 删除无效容器层（需确认）

清理终止状态的Pod：

复制代码

kubectl delete pod --field-selector=status.phase=Failed --all-namespaces

清理镜像缓存：

复制代码

kubelet --image-gc-high-threshold=90 --image-gc-low-threshold=85

清理旧日志：

复制代码

journalctl --vacuum-time=7d  # 清理系统日志
rm -rf /var/log/pods/*       # 清理Kubernetes Pod日志（谨慎操作）

确认PVC容量是否足够：

复制代码

kubectl get pvc -n <namespace>

扩展PVC容量（若支持动态扩容）：

复制代码

# 编辑PVC的spec.resources.requests.storage字段
kubectl edit pvc <pvc-name> -n <namespace>

若df -i显示Inode用尽：

复制代码

# 查找小文件密集的目录（如日志、缓存）
find / -xdev -type f | cut -d "/" -f 2 | sort | uniq -c | sort -n

清理无用文件或迁移数据。

在Pod配置中设置临时存储限制：

复制代码

resources:
  limits:
    ephemeral-storage: "2Gi"
  requests:
    ephemeral-storage: "1Gi"

通过以上步骤，通常可解决"no space left on device"问题。如仍无法解决，请检查节点硬件或考虑扩容磁盘。