ceph集群巡检项

概述

由于硬件、网络、bug等多方不稳定因素,ceph集群不可避免的会出现各种故障,为了提前感知集群运行状态,或长时间无法时时监控集群时,需要对集群做出定期巡检,较少集群故障率。这里列出常见的ceph集群巡检项。

集群概要

  • 集群简称:
  • ceph版本:
  • 集群规模:(mon、osd、rgw、mds个数)

服务器

  • 服务器状态
  • 系统盘使用量
  • 系统盘IO负载
  • 服务器CPU负载情况
  • 服务器内存空间
  • 网络状态

存储使用

  • 存储池状态
  • 存储池使用量
  • 存储池IO性能情况

存储组件

  • 最高osd使用率
  • 数据盘io负载
  • ceph mon 状态
  • ceph mon时间同步
  • ceph mon db占用磁盘空间
  • ceph 运行状态
  • ceph日志目录占用
  • osdmap占用

参数

  • 故障域级别
  • 存储空间使用率阈值
  • 恢复参数

其他信息统计

  • cpu
  • 操作系统/内核
  • 内存
相关推荐
YCY^v^3 小时前
centos 7 开启80,443端口,怎么弄?
linux·运维·centos
北南京海3 小时前
[Linux]进程地址空间
linux·运维·服务器
yzx9910134 小时前
服务器生成图片
运维·服务器
liulilittle6 小时前
C++ TAP(基于任务的异步编程模式)
服务器·开发语言·网络·c++·分布式·任务·tap
小阳睡不醒8 小时前
小白成长之路-部署Zabbix7(二)
android·运维
杰克逊的日记8 小时前
GPU运维常见问题处理
linux·运维·gpu
caolib9 小时前
无需云服务器的内网穿透方案 -- cloudflare tunnel
运维·服务器·内网穿透·tunnel·cloudflared
奇舞精选9 小时前
k8s基本概念初探
运维
誰能久伴不乏9 小时前
Linux系统调用概述与实现:深入浅出的解析
linux·运维·服务器
程序员学习随笔10 小时前
Linux进程深度解析(2):fork/exec写时拷贝性能优化与exit资源回收机制(进程创建和销毁)
linux·运维·服务器