概述
由于硬件、网络、bug等多方不稳定因素,ceph集群不可避免的会出现各种故障,为了提前感知集群运行状态,或长时间无法时时监控集群时,需要对集群做出定期巡检,较少集群故障率。这里列出常见的ceph集群巡检项。
集群概要
- 集群简称:
- ceph版本:
- 集群规模:(mon、osd、rgw、mds个数)
服务器
- 服务器状态
- 系统盘使用量
- 系统盘IO负载
- 服务器CPU负载情况
- 服务器内存空间
- 网络状态
存储使用
- 存储池状态
- 存储池使用量
- 存储池IO性能情况
存储组件
- 最高osd使用率
- 数据盘io负载
- ceph mon 状态
- ceph mon时间同步
- ceph mon db占用磁盘空间
- ceph 运行状态
- ceph日志目录占用
- osdmap占用
参数
- 故障域级别
- 存储空间使用率阈值
- 恢复参数
其他信息统计
- cpu
- 操作系统/内核
- 内存