基于Hadoop平台的电信客服数据的处理与分析③项目开发:搭建基于Hadoop的全分布式集群---任务9:HBase的安装和部署

任务描述

任务内容为HBase的安装部署与测试。

任务指导

HBase集群需要整个集群所有节点安装的HBase版本保持一致,并且拥有相同的配置

具体配置步骤如下:

  1. 解压缩HBase的压缩包

  2. 配置HBase的环境变量

  3. 修改HBase的配置文件,HBase的配置文件存放在HBase安装目录下的conf中

  4. 首先在一台节点对整个HBase集群进行配置,再将此节点的配置发送到集群的其它节点上。

  5. 具体需要修改的HBase的配置文件包括 hbase-site.xml、hbase-env.sh、regionservers

任务实现

1、HBase安装

这里已经将压缩包存放在/opt/software目录下,解压命令如下:

复制代码
[root@master1 ~]# tar -zxvf /opt/software/hbase-2.3.5-bin.tar.gz -C /opt/app/

设置HBase环境变量(master1、slave1、slave2)这里以master1为例:

复制代码
[root@master1 ~]# vi /etc/profile
export HBASE_HOME=/opt/app/hbase-2.3.5
export PATH=$PATH:$HBASE_HOME/bin

使用【source /etc/profile】使配置文件生效。

2、配置hbase-env.sh文件

复制代码
[root@master1 ~]# cd $HBASE_HOME/conf
[root@master1 conf]# vi hbase-env.sh

在文件末尾添加如下配置:

复制代码
export JAVA_HOME=/opt/app/jdk1.8.0_181
export HBASE_MANAGES_ZK=false

3、配置 hbase-site.xml文件,该文件存放在$HBASE_HOME/conf目录下,配置内容如下:

复制代码
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!--
/**
 *
 * Licensed to the Apache Software Foundation (ASF) under one
 * or more contributor license agreements.  See the NOTICE file
 * distributed with this work for additional information
 * regarding copyright ownership.  The ASF licenses this file
 * to you under the Apache License, Version 2.0 (the
 * "License"); you may not use this file except in compliance
 * with the License.  You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
-->
<configuration>
<property>
<name>hbase.rootdir</name>
<value>hdfs://master1:9000/hbase</value>
</property>
<property>
<name>hbase.unsafe.stream.capability.enforce</name>
<value>false</value>
</property>
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property>
<property>
<name>hbase.zookeeper.quorum</name>
<value>master1:2181,slave1:2181,slave2:2181</value>
</property>
</configuration>

4、配置regionservers文件

复制代码
[root@master1 conf]# vi regionservers
slave1
slave2

5、将Hadoop的配置文件拷贝到HBase的conf目录

复制代码
[root@master1 ~]# cp $HADOOP_HOME/etc/hadoop/core-site.xml $HBASE_HOME/conf
[root@master1 ~]# cp $HADOOP_HOME/etc/hadoop/hdfs-site.xml $HBASE_HOME/conf

6、将master1的HBase分发至整个集群:

复制代码
[root@master1 ~]# cd /opt/app
[root@master1 app]# scp -r hbase-2.3.5 slave1:/opt/app/
[root@master1 app]# scp -r hbase-2.3.5 slave2:/opt/app/

7、测试

HBase使用ZooKeeper保存元数据,在启动前需要保证ZooKeeper集群(master1、slave1、slave3)已启动,命令如下:

复制代码
# zkServer.sh start

#在master1上启动HBase集群

复制代码
[root@master1 ~]# start-hbase.sh

此时可以通过16010端口产看HBase的Web UI界面,如【http://master1:16010】。

#新建一个名为test的表,使其只包含一个名为data的列,表和列族属性都为默认值

复制代码
[root@master1 ~]# hbase shell
hbase(main):001:0> create 'test','data'
0 row(s) in 0.4150 seconds

#通过键入help查看帮助命令,运行list查看新建的表是否存在

复制代码
hbase(main):003:0> list
TABLE
test
1 row(s) in 0.0230 seconds

#在列族data中二个不同的行和列上插入数据,然后列出表内容

复制代码
hbase(main):004:0> put 'test','row1','data:1','values1'
0 row(s) in 0.1280 seconds
hbase(main):005:0> put 'test','row2','data:2','values2'
0 row(s) in 0.0090 seconds
hbase(main):006:0> scan 'test'
ROW COLUMN+CELL
row1 column=data:1, timestamp=1473585137461, value=values1
row2 column=data:2, timestamp=1473585158072, value=values2
2 row(s) in 0.0200 seconds

#删除刚创建的表test,需要先设为禁用,然后删除,不设置会报错:

复制代码
hbase(main):008:0> drop 'test'
ERROR: Table test is enabled. Disable it first.
hbase(main):009:0> disable 'test'
0 row(s) in 1.1800 seconds
hbase(main):010:0> drop 'test'
0 row(s) in 0.1570 seconds

#为后续功能创建命名空间

复制代码
create_namespace 'ns_ct'

#为后续功能创建表

复制代码
create 'ns_ct:calllog','f1','f2'
相关推荐
武子康1 天前
大数据-236 离线数仓 - 会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程
大数据·后端·apache hive
初次攀爬者2 天前
ZooKeeper 实现分布式锁的两种方式
分布式·后端·zookeeper
武子康2 天前
大数据-235 离线数仓 - 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路
大数据·后端·apache hive
DianSan_ERP3 天前
电商API接口全链路监控:构建坚不可摧的线上运维防线
大数据·运维·网络·人工智能·git·servlet
够快云库3 天前
能源行业非结构化数据治理实战:从数据沼泽到智能资产
大数据·人工智能·机器学习·企业文件安全
AI周红伟3 天前
周红伟:智能体全栈构建实操:OpenClaw部署+Agent Skills+Seedance+RAG从入门到实战
大数据·人工智能·大模型·智能体
B站计算机毕业设计超人3 天前
计算机毕业设计Django+Vue.js高考推荐系统 高考可视化 大数据毕业设计(源码+LW文档+PPT+详细讲解)
大数据·vue.js·hadoop·django·毕业设计·课程设计·推荐算法
计算机程序猿学长3 天前
大数据毕业设计-基于django的音乐网站数据分析管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等)
大数据·django·课程设计
B站计算机毕业设计超人3 天前
计算机毕业设计Django+Vue.js音乐推荐系统 音乐可视化 大数据毕业设计 (源码+文档+PPT+讲解)
大数据·vue.js·hadoop·python·spark·django·课程设计
十月南城3 天前
数据湖技术对比——Iceberg、Hudi、Delta的表格格式与维护策略
大数据·数据库·数据仓库·hive·hadoop·spark