ceph集群巡检项

概述

由于硬件、网络、bug等多方不稳定因素,ceph集群不可避免的会出现各种故障,为了提前感知集群运行状态,或长时间无法时时监控集群时,需要对集群做出定期巡检,较少集群故障率。这里列出常见的ceph集群巡检项。

集群概要

  • 集群简称:
  • ceph版本:
  • 集群规模:(mon、osd、rgw、mds个数)

服务器

  • 服务器状态
  • 系统盘使用量
  • 系统盘IO负载
  • 服务器CPU负载情况
  • 服务器内存空间
  • 网络状态

存储使用

  • 存储池状态
  • 存储池使用量
  • 存储池IO性能情况

存储组件

  • 最高osd使用率
  • 数据盘io负载
  • ceph mon 状态
  • ceph mon时间同步
  • ceph mon db占用磁盘空间
  • ceph 运行状态
  • ceph日志目录占用
  • osdmap占用

参数

  • 故障域级别
  • 存储空间使用率阈值
  • 恢复参数

其他信息统计

  • cpu
  • 操作系统/内核
  • 内存
相关推荐
江团1io027 分钟前
深入解析TCP核心机制:连接管理、流量与拥塞控制
服务器·网络·tcp/ip
知白守黑26736 分钟前
Ansible角色
运维·服务器·ansible
Jwest202136 分钟前
工业显示器在地铁电力监控与运维中的应用
运维·计算机外设
小小菜鸡ing6 小时前
pymysql
java·服务器·数据库
Mr. Cao code7 小时前
Docker:颠覆传统虚拟化的轻量级革命
linux·运维·ubuntu·docker·容器
wanhengidc8 小时前
云手机运行流畅,秒开不卡顿
运维·网络·科技·游戏·智能手机
笨小孩@GF 知行合一8 小时前
OSPF实验:外部路由引入
运维·网络·hcip·数通·ospf
asdfg12589639 小时前
为什么要在出口路由器router配置NAT与默认路由
运维·网络·计算机网络
当归10249 小时前
SQL Server死锁排查实战指南
java·服务器·网络
bug攻城狮9 小时前
Skopeo 工具介绍与 CentOS 7 安装指南
linux·运维·centos