ceph集群巡检项

概述

由于硬件、网络、bug等多方不稳定因素,ceph集群不可避免的会出现各种故障,为了提前感知集群运行状态,或长时间无法时时监控集群时,需要对集群做出定期巡检,较少集群故障率。这里列出常见的ceph集群巡检项。

集群概要

  • 集群简称:
  • ceph版本:
  • 集群规模:(mon、osd、rgw、mds个数)

服务器

  • 服务器状态
  • 系统盘使用量
  • 系统盘IO负载
  • 服务器CPU负载情况
  • 服务器内存空间
  • 网络状态

存储使用

  • 存储池状态
  • 存储池使用量
  • 存储池IO性能情况

存储组件

  • 最高osd使用率
  • 数据盘io负载
  • ceph mon 状态
  • ceph mon时间同步
  • ceph mon db占用磁盘空间
  • ceph 运行状态
  • ceph日志目录占用
  • osdmap占用

参数

  • 故障域级别
  • 存储空间使用率阈值
  • 恢复参数

其他信息统计

  • cpu
  • 操作系统/内核
  • 内存
相关推荐
电棍23317 小时前
在docker a100云服务器运行vulkan->sapien->robotwin的经验(报错segmentation fault)
运维·docker·容器
云动雨颤19 小时前
访问宝塔面板安全入口404?SSH命令轻松解决
linux·运维·安全
NPE~19 小时前
[Linux命令分享]日志查看 — — less
linux·运维·less·常用命令·日志查看
面向星辰20 小时前
扣子开始节点和结束节点
java·服务器·前端
一匹电信狗20 小时前
【C++】封装红黑树实现map和set容器(详解)
服务器·c++·算法·leetcode·小程序·stl·visual studio
大锦终21 小时前
【Linux】网络层与数据链路层中重点介绍
linux·运维·服务器·网络
lht63193561221 小时前
从Windows通过XRDP远程访问和控制银河麒麟 v10服务器
linux·运维·服务器·windows
3DVisionary1 天前
从手动到智能:XTOM-STATION自动化检测中心在复杂曲面零件全尺寸检测中的应用
运维·自动化·自动驾驶·工业自动化·质量控制·自动化3d测量·复杂零件检测
qiudaorendao1 天前
作业11.9
linux·服务器·apache
阿豪学编程1 天前
环境变量与程序地址空间
linux·运维·windows