ceph集群巡检项

概述

由于硬件、网络、bug等多方不稳定因素,ceph集群不可避免的会出现各种故障,为了提前感知集群运行状态,或长时间无法时时监控集群时,需要对集群做出定期巡检,较少集群故障率。这里列出常见的ceph集群巡检项。

集群概要

  • 集群简称:
  • ceph版本:
  • 集群规模:(mon、osd、rgw、mds个数)

服务器

  • 服务器状态
  • 系统盘使用量
  • 系统盘IO负载
  • 服务器CPU负载情况
  • 服务器内存空间
  • 网络状态

存储使用

  • 存储池状态
  • 存储池使用量
  • 存储池IO性能情况

存储组件

  • 最高osd使用率
  • 数据盘io负载
  • ceph mon 状态
  • ceph mon时间同步
  • ceph mon db占用磁盘空间
  • ceph 运行状态
  • ceph日志目录占用
  • osdmap占用

参数

  • 故障域级别
  • 存储空间使用率阈值
  • 恢复参数

其他信息统计

  • cpu
  • 操作系统/内核
  • 内存
相关推荐
巨可爱熊2 小时前
高并发内存池(定长内存池基础)
linux·运维·服务器·c++·算法
zkmall2 小时前
ZKmall开源商城静态资源管理:Nginx 配置与优化
运维·nginx·开源
yangang1854 小时前
linuxbash原理
linux·运维·服务器
一一Null4 小时前
关于手机取证中逻辑采集与系统备份的差异
服务器·网络·智能手机
小度爱学习4 小时前
linux中的执行命令格式及命令帮助
linux·运维·chrome
yangshuo12815 小时前
如何在服务器上搭建mail服务器邮件服务器
运维·服务器
猿小喵5 小时前
记录一次TDSQL网关夯住故障
运维·数据库·mysql
独行soc5 小时前
2025年常见渗透测试面试题-红队面试宝典下(题目+回答)
linux·运维·服务器·前端·面试·职场和发展·csrf
mosaicwang5 小时前
dnf install openssl失败的原因和解决办法
linux·运维·开发语言·python
小丁爱养花6 小时前
驾驭 Linux 云: JavaWeb 项目安全部署
java·linux·运维·服务器·spring boot·后端·spring