ceph集群巡检项

概述

由于硬件、网络、bug等多方不稳定因素,ceph集群不可避免的会出现各种故障,为了提前感知集群运行状态,或长时间无法时时监控集群时,需要对集群做出定期巡检,较少集群故障率。这里列出常见的ceph集群巡检项。

集群概要

  • 集群简称:
  • ceph版本:
  • 集群规模:(mon、osd、rgw、mds个数)

服务器

  • 服务器状态
  • 系统盘使用量
  • 系统盘IO负载
  • 服务器CPU负载情况
  • 服务器内存空间
  • 网络状态

存储使用

  • 存储池状态
  • 存储池使用量
  • 存储池IO性能情况

存储组件

  • 最高osd使用率
  • 数据盘io负载
  • ceph mon 状态
  • ceph mon时间同步
  • ceph mon db占用磁盘空间
  • ceph 运行状态
  • ceph日志目录占用
  • osdmap占用

参数

  • 故障域级别
  • 存储空间使用率阈值
  • 恢复参数

其他信息统计

  • cpu
  • 操作系统/内核
  • 内存
相关推荐
Ops菜鸟(Xu JieHao)13 分钟前
Linux 安全防护firewalld防火墙管理(1)
linux·服务器·安全·centos·防火墙·firewalld·系统运维
熬夜苦读学习30 分钟前
文件基础IO
linux·运维·数据库
北京华人开创公司33 分钟前
京准:NTP卫星时钟服务器对于DeepSeek安全的重要性
运维·服务器·安全·卫星时钟服务器·ntp时间服务器·网络时间同步·网络时间服务器
鹧鸪云光伏与储能软件开发1 小时前
鹧鸪云无人机光伏运维解决方案
运维·无人机
huanzghui2 小时前
在远程 Linux 服务器上运行 Jupyter Notebook(.ipynb 文件)
linux·服务器·jupyter
孫治AllenSun2 小时前
【Linux】curl命令详解
linux·运维·服务器
牛十二3 小时前
Mac本地部署DeekSeek-R1下载太慢怎么办?
linux·运维·ubuntu
weixin_441578513 小时前
Centos 8 离线升级openssh 9.9
linux·运维·centos
NiNg_1_2343 小时前
Docker最佳实践:安装Nacos
运维·docker·容器
m0_748233363 小时前
Nginx反向代理出现502 Bad Gateway问题的解决方案
运维·nginx·gateway