HBase监控方法以及核心指标

文章目录

  • [1. 监控指标采集](#1. 监控指标采集)
  • [2. 核心告警指标](#2. 核心告警指标)
    • [2.1 Master核心指标梳理](#2.1 Master核心指标梳理)
    • [2.2 RegionServer核心指标梳理](#2.2 RegionServer核心指标梳理)
  • [3. 参考文章](#3. 参考文章)

探讨hbase的监控数据采集方式以及需要关注的核心指标,便于日常生产进行监控和巡检。

1. 监控指标采集

监控指标的采集方式使用promethues + jmx_prometheus_javaagent的方式进行,具体方案部署方案可以参考HDFS监控方法以及核心指标

需要注意的是,调整几个关键配置,

1, 配置master.yaml和regionserver.yaml

bash 复制代码
root@Master:/usr/local/monitor# cat /usr/local/monitor/master.yaml 
startDelaySeconds: 0
ssl: false
lowercaseOutputName: false
lowercaseOutputLabelNames: false

root@Master:/usr/local/monitor# cat /usr/local/monitor/regionserver.yaml 
startDelaySeconds: 0
ssl: false
lowercaseOutputName: false
lowercaseOutputLabelNames: false

2, 配置hdfs相关的OPTS

bash 复制代码
vim /usr/local/hbase-2.4.17/conf/hbase-env.sh 

# 增加jmx_prometheus_javaagent采集配置
export HBASE_MASTER_OPTS="$HBASE_MASTER_OPTS -javaagent:/usr/local/monitor/jmx_prometheus_javaagent-0.20.0.jar=10000:/usr/local/monitor/master.yaml"
export HBASE_REGIONSERVER_OPTS="$HBASE_REGIONSERVER_OPTS -javaagent:/usr/local/monitor/jmx_prometheus_javaagent-0.20.0.jar=10001:/usr/local/monitor/regionserver.yaml"

3,正常启动hbase

bash 复制代码
cd /usr/local/hbase-2.4.17/bin
./hbase-daemon.sh start master
./hbase-daemon.sh start regionserver

4, 启动的进程中会携带jmx_prometheus_javaagent参数

5, 查看相关的指标

bash 复制代码
# resourcemanager指标
curl localhost:10000/metrics

# nodemanager指标
curl localhost:10001/metrics

配置prometheus等细节,可以参考可以参考HDFS监控方法以及核心指标,本文不再继续赘述。

2. 核心告警指标

2.1 Master核心指标梳理

指标名称 指标说明 参考值 备注
进程 进程 进程存在 == 1
masterStartTime Master 进程启动时间 >= 10s
主备情况 haState 1:主,0:备 集群必须包含1主1备
numCallsInPriorityQueue 通用队列 RPC 请求数 <= 1000 过长的rpc队列会导致nn处理不过来了,注意调优jvm或者线程数量以及客户端的缓存
numCallsInReplicationQueue 复制队列 RPC 请求数 <= 1000 过长的rpc队列会导致nn处理不过来了,注意调优jvm或者线程数量以及客户端的缓存
numOpenConnections 当前打开的连接个数 <= 1000 不宜有太多的链接,涉及性能问题,根据实际情况调整
numDeadRegionServers 当前Dead的 RegionServer 个数 <= 0

2.2 RegionServer核心指标梳理

指标名称 指标说明 参考值 备注
进程 进程 进程存在 == 1
numCallsInPriorityQueue 通用队列 RPC 请求数 <= 1000 过长的rpc队列会导致nn处理不过来了,注意调优jvm或者线程数量以及客户端的缓存
MemHeapUsedM/MemHeapMaxM Jvmd堆内内存使用率 <= 60%
AvailableVCores / (AllocatedVCores + AvailableVCores ) NodeManager 可用的 VCore 占比 <= 90% 涉及容量资源,不同环境根据实际情况调整
AvailableGB / (AllocatedGB + AvailableGB ) NodeManager 可用的 内存 占比 <= 90% 涉及容量资源,不同环境根据实际情况调整
BytesWrittenMB 写入 DN 的字节速率 根据机器的网卡带宽调整
BytesReadMB 读取 DN 的字节速率 根据机器的网卡带宽调整
VolumeFailures 磁盘故障次数 <= 0
DatanodeNetworkErrors 网络错误统计 <= 0
磁盘使用率 <= 70
磁盘await 磁盘读写的await <= 1ms

3. 参考文章

相关推荐
Loving_enjoy19 分钟前
基于Hadoop的明星社交媒体影响力数据挖掘平台:设计与实现
大数据·hadoop·数据挖掘
浮尘笔记26 分钟前
go-zero使用elasticsearch踩坑记:时间存储和展示问题
大数据·elasticsearch·golang·go
碳基学AI2 小时前
哈尔滨工业大学DeepSeek公开课:探索大模型原理、技术与应用从GPT到DeepSeek|附视频与讲义免费下载方法
大数据·人工智能·python·gpt·算法·语言模型·集成学习
一个天蝎座 白勺 程序猿3 小时前
大数据(4.6)Hive执行引擎选型终极指南:MapReduce/Tez/Spark性能实测×万亿级数据资源配置公式
大数据·hive·mapreduce
HelpHelp同学3 小时前
信息混乱难查找?三步搭建高效帮助中心解决难题
大数据·人工智能·知识库管理系统
TDengine (老段)9 小时前
TDengine 中的关联查询
大数据·javascript·网络·物联网·时序数据库·tdengine·iotdb
直裾14 小时前
Mapreduce的使用
大数据·数据库·mapreduce
麻芝汤圆16 小时前
使用 MapReduce 进行高效数据清洗:从理论到实践
大数据·linux·服务器·网络·数据库·windows·mapreduce
树莓集团16 小时前
树莓集团海南落子:自贸港布局的底层逻辑
大数据
不剪发的Tony老师16 小时前
Hue:一个大数据查询工具
大数据