ceph集群巡检项

概述

由于硬件、网络、bug等多方不稳定因素,ceph集群不可避免的会出现各种故障,为了提前感知集群运行状态,或长时间无法时时监控集群时,需要对集群做出定期巡检,较少集群故障率。这里列出常见的ceph集群巡检项。

集群概要

  • 集群简称:
  • ceph版本:
  • 集群规模:(mon、osd、rgw、mds个数)

服务器

  • 服务器状态
  • 系统盘使用量
  • 系统盘IO负载
  • 服务器CPU负载情况
  • 服务器内存空间
  • 网络状态

存储使用

  • 存储池状态
  • 存储池使用量
  • 存储池IO性能情况

存储组件

  • 最高osd使用率
  • 数据盘io负载
  • ceph mon 状态
  • ceph mon时间同步
  • ceph mon db占用磁盘空间
  • ceph 运行状态
  • ceph日志目录占用
  • osdmap占用

参数

  • 故障域级别
  • 存储空间使用率阈值
  • 恢复参数

其他信息统计

  • cpu
  • 操作系统/内核
  • 内存
相关推荐
龙龙博客2 小时前
LVS+Keepalived 实现高可用负载均衡
运维·负载均衡·lvs
职略2 小时前
负载均衡类型和算法解析
java·运维·分布式·算法·负载均衡
Iᴛ's ᴅᴇsᴛɪɴʏ²⁸.3 小时前
Nginx反向代理和负载均衡
运维·nginx·负载均衡
cui_win5 小时前
nginx-限制客户端并发数
运维·nginx·限流·limit_conn·限制并发
King's King6 小时前
自动化立体仓库出入库能力及堆垛机节拍
运维·自动化
一颗星的征途6 小时前
宝塔-Linux模板常用命令-centos7
linux·运维·服务器
yumuing blog6 小时前
【论文解读】AGENTLESS:揭开基于LLM的软件工程代理的神秘面纱,重塑软件工程自动化新基线
运维·自动化·软件工程·llama
super_Dev_OP7 小时前
Web3 ETF的主要功能
服务器·人工智能·信息可视化·web3
Elastic 中国社区官方博客7 小时前
Elasticsearch:Painless scripting 语言(一)
大数据·运维·elasticsearch·搜索引擎·全文检索
小梁不秃捏7 小时前
计算机网络之以太网
服务器·计算机网络·信息与通信