一、实验目的
-
理解分布式数据存储的基本概念和原理。
-
掌握HBase的基本操作,包括表的创建、删除、数据的查询、插入和删除等。
-
学习使用HBase的命令行shell工具进行数据操作。
-
理解HBase中的过滤查询机制。
二、实验环境准备
-
JAVA环境准备:确保Java Development Kit (JDK) 已安装并配置好环境变量。
-
Hadoop环境准备:安装并配置Hadoop环境,确保Hadoop的各个组件可以在伪分布式模式下运行。
三、实验教材参考
《大数据存储》,谭旭,人民邮电出版社,2022,ISBN 978-7-115-59414-3。
四、实验内容与步骤
1、创建表
设计一个简单的表结构,例如学生信息表(Students),包含两个列族:基本信息(info)和成绩信息(scores)。
使用 create 'Students', 'info', 'scores' 命令创建表
2、插入数据
向Students表中插入几条学生记录,插入至少3名学生的信息和成绩。
3、查询表数据
使用 scan 'Students' 命令查询并显示表中的所有数据。
使用 get 'Students', 'student1' 命令查询特定学生的信息。
4、过滤查询
使用过滤器查询特定条件的记录,例如查询数学成绩大于85分的学生:
scan 'Students', {COLUMNS => 'scores:math', FILTER => "ValueFilter( >, 'binary:85')"}
5、删除数据
删除一条学生记录,例如删除student1的记录:deleteall 'Students', 'student1'
6、删除表
在删除表之前,需要先禁用表:
disable 'Students'
使用 drop 'Students' 命令删除表。