ceph集群巡检项

概述

由于硬件、网络、bug等多方不稳定因素,ceph集群不可避免的会出现各种故障,为了提前感知集群运行状态,或长时间无法时时监控集群时,需要对集群做出定期巡检,较少集群故障率。这里列出常见的ceph集群巡检项。

集群概要

  • 集群简称:
  • ceph版本:
  • 集群规模:(mon、osd、rgw、mds个数)

服务器

  • 服务器状态
  • 系统盘使用量
  • 系统盘IO负载
  • 服务器CPU负载情况
  • 服务器内存空间
  • 网络状态

存储使用

  • 存储池状态
  • 存储池使用量
  • 存储池IO性能情况

存储组件

  • 最高osd使用率
  • 数据盘io负载
  • ceph mon 状态
  • ceph mon时间同步
  • ceph mon db占用磁盘空间
  • ceph 运行状态
  • ceph日志目录占用
  • osdmap占用

参数

  • 故障域级别
  • 存储空间使用率阈值
  • 恢复参数

其他信息统计

  • cpu
  • 操作系统/内核
  • 内存
相关推荐
来鸟 鸣间35 分钟前
vscode 连接远程服务器
服务器·ide·vscode
伤不起bb1 小时前
Kafka 消息队列
linux·运维·分布式·kafka
Wooden-Flute1 小时前
五、查询处理和查询优化
服务器·数据库·oracle
好多知识都想学2 小时前
Linux 文件处理器 sed 和 awk 详细讲解
linux·运维·ubuntu
FBI HackerHarry浩3 小时前
云计算 Linux Rocky day05【rpm、yum、history、date、du、zip、ln】
linux·运维·云计算·腾讯云
敲键盘的小夜猫3 小时前
RunnablePassthrough介绍和透传参数实战
java·服务器·前端
丁劲犇3 小时前
开始在本地部署自己的 Gitea 服务器
运维·服务器·gitea
bcxwz6694 小时前
linux 故障处置通用流程-36计-14-27
linux·运维·服务器
孙克旭_4 小时前
day028-Shell自动化编程-判断进阶
linux·运维·数据库·自动化
L.S.V.4 小时前
MYSQL(三)--服务器启动参数与配置
服务器·数据库·mysql