ceph集群巡检项

概述

由于硬件、网络、bug等多方不稳定因素,ceph集群不可避免的会出现各种故障,为了提前感知集群运行状态,或长时间无法时时监控集群时,需要对集群做出定期巡检,较少集群故障率。这里列出常见的ceph集群巡检项。

集群概要

  • 集群简称:
  • ceph版本:
  • 集群规模:(mon、osd、rgw、mds个数)

服务器

  • 服务器状态
  • 系统盘使用量
  • 系统盘IO负载
  • 服务器CPU负载情况
  • 服务器内存空间
  • 网络状态

存储使用

  • 存储池状态
  • 存储池使用量
  • 存储池IO性能情况

存储组件

  • 最高osd使用率
  • 数据盘io负载
  • ceph mon 状态
  • ceph mon时间同步
  • ceph mon db占用磁盘空间
  • ceph 运行状态
  • ceph日志目录占用
  • osdmap占用

参数

  • 故障域级别
  • 存储空间使用率阈值
  • 恢复参数

其他信息统计

  • cpu
  • 操作系统/内核
  • 内存
相关推荐
孙同学_7 分钟前
【Linux篇】调试器-gdb/cgdb使用
linux·运维·服务器
自由鬼12 分钟前
免费开源抓包工具Wireshark介绍
运维·服务器·网络·测试工具·网络安全·wireshark
汤姆和杰瑞在瑞士吃糯米粑粑27 分钟前
【Linux学习篇】--开发工具第一期
linux·运维·学习
Richard_Yang31 分钟前
基于OpenObserve实现分布式系统监控(1)
运维
dessler1 小时前
DeepSeek-进阶版部署(Linux+GPU)
linux·运维·服务器·云原生·大模型·deepseek
fanxiaohui121382 小时前
元脑服务器:浪潮信息引领AI基础设施的创新与发展
运维·服务器·人工智能
小林熬夜学编程2 小时前
【MySQL】第十五弹---全面解析事务:定义、起源、版本支持与提交方式
android·linux·服务器·开发语言·数据库·mysql
毫无存在感的码农2 小时前
一、Jenkins简单配置(使用语言、凭证、SSH)
运维·ssh·jenkins
猴的哥儿3 小时前
Ubuntu 22.04 LTS 入门教学文档
linux·运维·ubuntu·docker
纷飞梦雪5 小时前
使用chroot预安装软件到ubuntu22中
linux·运维·ubuntu