HBase 部署及shell操作

HBase 数据库

  • [一、HBase 概述](#一、HBase 概述)
    • [1.1 HBase 是什么](#1.1 HBase 是什么)
    • [HBase 的特点](#HBase 的特点)
  • [二、HBase 模型及架构](#二、HBase 模型及架构)
    • [2.1 HBase 逻辑模型](#2.1 HBase 逻辑模型)
    • [2.2 HBase 数据模型](#2.2 HBase 数据模型)
    • [2.3 HBase 物理模型](#2.3 HBase 物理模型)
      • [2.3.1 列簇物理模型](#2.3.1 列簇物理模型)
      • [2.3.2 Rowkey 字段排序](#2.3.2 Rowkey 字段排序)
      • [2.3.3 Region 存储到不同节点](#2.3.3 Region 存储到不同节点)
      • [2.3.4 Region 结构](#2.3.4 Region 结构)
    • [2.4 HBase 基本架构](#2.4 HBase 基本架构)
  • [三、搭建 HBase 分布式集群](#三、搭建 HBase 分布式集群)
    • [3.1 HBase 集群规划](#3.1 HBase 集群规划)
      • [3.1.1 主机规划](#3.1.1 主机规划)
      • [3.1.2 软件规划](#3.1.2 软件规划)
      • [3.1.3 用户规划](#3.1.3 用户规划)
      • [3.1.4 数据目录规划](#3.1.4 数据目录规划)
    • [3.2 HBase 集群安装配置](#3.2 HBase 集群安装配置)
      • [3.2.1 下载上传解压](#3.2.1 下载上传解压)
      • [3.2.2 修改配置文件](#3.2.2 修改配置文件)
        • [3.2.2.1 修改hbase-site.xml配置文件](#3.2.2.1 修改hbase-site.xml配置文件)
        • [3.2.2.2 修改regionservers配置文件](#3.2.2.2 修改regionservers配置文件)
        • [3.2.2.3 修改backup-masters配置文件](#3.2.2.3 修改backup-masters配置文件)
        • [3.2.2.4 修改hbase-env.sh配置文件](#3.2.2.4 修改hbase-env.sh配置文件)
      • [3.2.3 配置 HBase 环境变量](#3.2.3 配置 HBase 环境变量)
      • [3.2.4 配置文件同步到集群其他节点](#3.2.4 配置文件同步到集群其他节点)
    • [3.3 启动 HBase 集群服务](#3.3 启动 HBase 集群服务)
      • [3.3.1 启动 Zookeeper 集群](#3.3.1 启动 Zookeeper 集群)
      • [3.3.2 启动 HDFS 集群](#3.3.2 启动 HDFS 集群)
      • [3.3.3 启动 HBase 集群](#3.3.3 启动 HBase 集群)
      • [3.3.5 HBase Web 界面](#3.3.5 HBase Web 界面)
  • [四、HBase shell 操作](#四、HBase shell 操作)

一、HBase 概述

1.1 HBase 是什么

HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,利用HBase技术可在廉价的PC Server上搭建大规模结构化存储集群。

HBase是Google BigTable的开源实现,与Google的BigIable利用GFS作为其文件存储系统类似,HBase则利用Hadoop的HDFS作为其文件存储系统。Google运行 MapReduce 来处理Bigtable中的海量数据,而HBase则利用 Hadoop的MapReduce来处理HBase中的海量数据Google Bigtable利用Chubby作为协同服务,而HBase则利用Zookeeper作为协同服务。

HBase 的特点

  • 容量巨大:单表可以有百亿行、数百万列。
  • 无模式:同一个表的不同行可以有截然不同的列。
  • 面向列:HBase是面向列的存储和权限控制,并支持列独立索引。
  • 稀疏性:表可以设计得非常稀疏,值为空的列并不占用存储空间。
  • 扩展性:HBase底层文件存储依赖HDFS,它天生具备可扩展性。
  • 高可靠性:HBase提供了预写日志(WAL)和副本(Replication)机制,防止数据丢失。
  • 高性能:底层的LSM(Log-Structured Merge Tree)数据结构和RowKey有序排列等架构上的独特设计,使得HBase具备非常高的写入性能。

二、HBase 模型及架构

2.1 HBase 逻辑模型

2.2 HBase 数据模型

  • HBase是一种列式存储的分布式数据库,其核心概念是表(Table)。与传统关系型数据库一样,HBase 的表也是由行和列组成,但 Hase同一列可以存储不同时刻的值,同时多个列可以组成一个列簇(Column Family),这种组织形式主要是出于HBase存取性能的考虑。

  • 行键

    Rowkey 既是 HBase 表的行键,也是 HBase 表的主键。HBase 表中的记录是按照RowKey的字典顺序进行存储的。

    在HBase中,为了高效地检索数据,需要设计良好的Rowkey来提高查询性能。因为Rowkey 会被几余存储,所以长度不宜过长,Rowkey 过长将会占用大量的存储空间同时会降低检索效率。其次 Rowkey 应该尽量均匀分布,避免产生热点问题(大量用户访问集中在一个或极少数节点,从而造成单台节点超出自身承受能力)。另外需要保证Rowkey的唯一性。

  • 列簇

    HBase表中的每个列都归属于某个列簇,一个列簇中的所有列成员有着相同的前缀。比如,列anchor:cnnsi.com和anchor:my.look.ca都是列簇anchor的成员。列簇是表的schema的-部分,必须在使用表之前定义列簇,但列却不是必需的,写数据的时候可以动态加入。一般将经常一起查询的列放在一个列簇中,合理划分列簇将减少查询时加载到缓存的数据,提高查询效率,但也不能有太多的列簇,因为跨列簇访问是非常低效的。

  • 单元格

    HBase中通过RowKey和Column确定的一个存储单元称为单元格(Ce11)。每个单元格都保存着同一份数据的多个版本,不同时间版本的数据按照时间顺序倒序排序,最新时间的数据排在最前面,时间截是 64 位的整数,可以由客户端在写入数据时赋值,也可以由RegionServer自动赋值。

2.3 HBase 物理模型

2.3.1 列簇物理模型

2.3.2 Rowkey 字段排序

2.3.3 Region 存储到不同节点

一个表包含不同的Region,一个 Region 包含不同列簇,一个列簇包含不同的列

2.3.4 Region 结构

在 Region 中,数据先写在内存 memStore,然后再保存在磁盘文件(HDFS)中;一个 Store 表示一个列簇

2.4 HBase 基本架构

  • HMaster:管理表的增删改查、负责负载均衡
  • Zookeeper:监听HRegionServer的上下线,HMaster主备切换
  • HRegionServer:负载客户端的读写请求、预写日志、管理 HRegion
  • HRegion:管理 Store,写入内存,写入磁盘文件
  • HFile:内容写入 HDFS

三、搭建 HBase 分布式集群

3.1 HBase 集群规划

HBase底层数据存储在HDFS之上,所以构建HBase集群之前需要确保HDFS集群正常运行。为了确保数据的本地性,HBase集群安装选择跟HDFS集群共享节点。

3.1.1 主机规划

仍然选择hadoop1、hadoop2和hadoop3节点安装部署HBase集群,那么相关角色规划如下:

hadoop1 hadoop2 hadoop3
NameNode
DataNode
Zookeeper
Hmaster
HRegionServer

3.1.2 软件规划

HBase集群的安装需要考虑与Hadoop版本的兼容性问题,否则HBase可能无法正常运行,其相关软件版本如下:

软件 版本 位数 说明
JDK 1.8 64 稳定
Zookeeper 3.8.4 稳定
hadoop 2.10.2 稳定
HBase 2.1.0 与Hadoop兼容

3.1.3 用户规划

HBase集群安装用户保持与Hadoop集群安装用户一致即可,其用户规划如下:

节点 用户组 用户
hadoop1 root root
hadoop2 root root
hadoop3 root root

3.1.4 数据目录规划

在正式安装HBase之前,需要规划好所有的软件目录和数据存放目录,便于后期的管理与维护。HBase目录规划如下:

目录名称 目录路径
HBase 软件安装目录 /usr/local
RegionServer 共享目录 hdfs://mycluster/hbase
Zookeeper 数据目录 /usr/local/data/zookeeper

3.2 HBase 集群安装配置

3.2.1 下载上传解压

下载地址https://archive.apache.org/dist/hbase/

上传:

解压:

javascript 复制代码
[root@hadoop1 local]# tar -zxvf hbase-2.1.0-bin.tar.gz 

创建软连接:

javascript 复制代码
[root@hadoop1 local]# ln -s hbase-2.1.0 hbase

3.2.2 修改配置文件

进入hadoop1节点的conf目录,修改HBase集群相关配置文件

3.2.2.1 修改hbase-site.xml配置文件

通过修改hbase-site.xml配置文件进行个性化配置,修改内容如下所示

javascript 复制代码
[root@hadoop1 hbase]# vim /usr/local/hbase/conf/hbase-site.xml 

添加如下内容(记得把注释去掉,以免不能正常启动):

javascript 复制代码
<configuration>
  <property>
      <name>hbase.zookeeper.quorum</name>
      <value>hadoop1,hadoop2,hadoop3</value>
      <description>指定Zookeeper集群节点</description>
  </property>
  <property>
      <name>hbase.zookeeper.property.dataDir</name>
      <value>/usr/local/zookeeper/data/zkdata</value>
      <description>指定Zookeeper数据存储目录</description>
  </property>
  <property>
      <name>hbase.zookeeper.property.clientPort</name>
      <value>2181</value>
      <description>指定Zookeeper端口号</description>
  </property>
  <property>
      <name>hbase.rootdir</name>
      <value>hdfs://mycluster/hbase</value>
      <description>指定HBase在HDFS上的根目录</description>
  </property>
  <property>
          <name>hbase.cluster.distributed</name>
          <value>true</value>
          <description>指定true为分布式集群部署</description>
  </property>
  <property>
		<name>hbase.unsafe.stream.capability.enforce</name>
		<value>false</value>
		<description>使用本地文件系统设置为false,使用hdfs设置为true</description>
  </property>
</configuration>
3.2.2.2 修改regionservers配置文件

修改regionservers配置文件添加RegionServer节点角色,修改内容如下:

javascript 复制代码
[root@hadoop1 hbase]# vim /usr/local/hbase/conf/regionservers 

添加如下内容(不要添加空格或最后加换行):

javascript 复制代码
hadoop1
hadoop2
hadoop3
3.2.2.3 修改backup-masters配置文件

修改backup-masters配置文件(可能不存在此文件)添加备用节点,修改内容如下:

javascript 复制代码
[root@hadoop1 hbase]# vim /usr/local/hbase/conf/backup-masters

添加内容如下:

javascript 复制代码
hadoop2

因为HBase的HMaster角色需要配置高可用,所以这里选择hadoop2为备用节点。

3.2.2.4 修改hbase-env.sh配置文件

修改hbase-env.sh配置文件添加相关环境变量,修改内容如下:

javascript 复制代码
[root@hadoop1 hbase]# vim /usr/local/hbase/conf/hbase-env.sh 

修改如下内容(注释部分记得去掉):

javascript 复制代码
# 配置jdk安装路径
export JAVA_HOME=/usr/local/jdk
# 使用独立的Zookeeper集群
export HBASE_MANAGES_ZK=false

3.2.3 配置 HBase 环境变量

添加HBase环境变量,添加内容如下

javascript 复制代码
[root@hadoop1 hbase]# vim /etc/profile

添加如下内容:

javascript 复制代码
# 添加 HBase 环境变量
HBASE_HOME=/usr/local/hbase
PATH=$HBASE_HOME/bin:$PATH
export HIVE_HOME PATH

更新环境变量

javascript 复制代码
[root@hadoop1 hbase]# source /etc/profile
javascript 复制代码
# 添加 HBase 环境变量
HBASE_HOME=/usr/local/hbase
PATH=$HBASE_HOME/bin:$PATH
export HIVE_HOME PATH

3.2.4 配置文件同步到集群其他节点

将hadoop1节点中配置好的HBase安装目录,分发给hadoop2和hadoop3节点,因为HBase集群配置都是一样的。这里使用工具 deploy.shrunRemoteCmd.sh 命令进行分发(ZooKeeper 集群的详细部署的4.1章节),具体操作如下:

javascript 复制代码
[root@hadoop1 tools]# deploy.sh /usr/local/hbase-2.1.0 /usr/local/ slave
[root@hadoop1 tools]# deploy.sh /etc/profile /etc slave
[root@hadoop1 tools]# runRemoteCmd.sh "ln -s /usr/local/hbase-2.1.0 /usr/local/hbase" slave

3.3 启动 HBase 集群服务

3.3.1 启动 Zookeeper 集群

javascript 复制代码
[root@hadoop1 tools]# runRemoteCmd.sh "/usr/local/zookeeper/bin/zkServer.sh start" all

3.3.2 启动 HDFS 集群

javascript 复制代码
[root@hadoop1 tools]# /usr/local/hadoop/sbin/start-dfs.sh

3.3.3 启动 HBase 集群

javascript 复制代码
[root@hadoop1 tools]# /usr/local/hbase/bin/start-hbase.sh 

日志提示报错:

上面提示是缺少 htrace.SamplerBuilder类,如下操作再重新启动

javascript 复制代码
[root@hadoop1 client-facing-thirdparty]# cp /usr/local/hbase/lib/client-facing-thirdparty/htrace-core-3.1.0-incubating.jar /usr/local/hbase/lib/

3.3.5 HBase Web 界面

四、HBase shell 操作

进入 HBbase shell

javascript 复制代码
[root@hadoop1 hbase]# /usr/local/hbase/bin/hbase shell
  • 创建 course 表
javascript 复制代码
hbase(main):005:0> create 'course','cf'
  • 查看 HBase 所有表
javascript 复制代码
hbase(main):006:0> list
  • 查看 course 表结构
javascript 复制代码
hbase(main):008:0> describe 'course'
  • 向 course 表插入数据
javascript 复制代码
put 'course','001','cf:cname','hbase'
put 'course','001','cf:score','95'
put 'course','002','cf:cname','sqoop'
put 'course','002','cf:score','85'
put 'course','003','cf:cname','flume'
put 'course','003','cf:score','98'
  • 查询 course 表中的所有数据
javascript 复制代码
hbase(main):015:0> scan 'course'
  • 根据行键查询 course 表
    • 查询整条记录
javascript 复制代码
hbase(main):023:0> get 'course','001'
- 查询一个列簇数据
javascript 复制代码
hbase(main):025:0> get 'course','001','cf'
  • 查询列簇中其中的一个列
javascript 复制代码
hbase(main):026:0> get 'course','001','cf:cname'
  • 更新 course 表数据
javascript 复制代码
hbase(main):027:0> put 'course','001','cf:score','99'
hbase(main):028:0> get 'course','001','cf:score'
  • 查询 course 表总记录
javascript 复制代码
hbase(main):029:0> count 'course'
  • 删除 course 表数据
    • 删除列簇中的一列
javascript 复制代码
hbase(main):031:0> delete 'course','003','cf:score'
hbase(main):034:0> scan 'course'
  • 删除整行记录
javascript 复制代码
hbase(main):033:0> deleteall 'course','002'
hbase(main):034:0> scan 'course'
  • 清空 course 表
javascript 复制代码
hbase(main):035:0> truncate 'course'
hbase(main):036:0> scan 'course'
  • 删除 course 表
javascript 复制代码
hbase(main):037:0> disable 'course'
hbase(main):038:0> drop 'course'
  • 查看表是否存在
javascript 复制代码
hbase(main):040:0> exists 'course'
相关推荐
时差9532 分钟前
【面试题】Hive 查询:如何查找用户连续三天登录的记录
大数据·数据库·hive·sql·面试·database
让学习成为一种生活方式3 分钟前
R包下载太慢安装中止的解决策略-R语言003
java·数据库·r语言
Mephisto.java3 分钟前
【大数据学习 | kafka高级部分】kafka中的选举机制
大数据·学习·kafka
Mephisto.java10 分钟前
【大数据学习 | kafka高级部分】kafka的优化参数整理
大数据·sql·oracle·kafka·json·database
道可云11 分钟前
道可云人工智能&元宇宙每日资讯|2024国际虚拟现实创新大会将在青岛举办
大数据·人工智能·3d·机器人·ar·vr
成都古河云22 分钟前
智慧场馆:安全、节能与智能化管理的未来
大数据·运维·人工智能·安全·智慧城市
软工菜鸡29 分钟前
预训练语言模型BERT——PaddleNLP中的预训练模型
大数据·人工智能·深度学习·算法·语言模型·自然语言处理·bert
秋意钟30 分钟前
MySQL日期类型选择建议
数据库·mysql
Dxy12393102161 小时前
python下载pdf
数据库·python·pdf
武子康2 小时前
大数据-212 数据挖掘 机器学习理论 - 无监督学习算法 KMeans 基本原理 簇内误差平方和
大数据·人工智能·学习·算法·机器学习·数据挖掘