大数据技术之HBase简介（1）

[HBase 简介](#HBase 简介)

[HBase 定义](#HBase 定义)

[HBase 数据模型](#HBase 数据模型)

[HBase 逻辑结构](#HBase 逻辑结构)

[HBase 物理存储结构](#HBase 物理存储结构)

[HBase 基本架构](#HBase 基本架构)

HBase 简介

HBase 定义

Apache HBase™ 是一种分布式、可扩展的 NoSQL 数据库，它基于 HDFS 进行数据存储。

HBase 数据模型

HBase 的设计理念源自 Google 的 BigTable 论文，采用类似的数据模型。

BigTable 数据模型简介:
- Bigtable 是一个稀疏的、分布式的、持久的多维排序 map。
- 映射由行键、列键和时间戳索引；映射中的每个值都是一个未解释的字节数组。
HBase 数据模型:
- HBase 使用与 Bigtable 非常相似的数据模型。用户将数据行存储在带标签的表中。
- 数据行具有可排序的键和任意数量的列。
- 表存储稀疏，因此同一表中的行可以具有变化很大的列。
关键特性:
- 稀疏、分布式、多维、排序的映射。
- 映射指代非关系型数据库的 key-value 结构。

HBase 逻辑结构

HBase 可以用于存储多种结构的数据，以下是以 JSON 格式表示的一个例子：

复制代码

{
  "row_key1":{
    "personal_info":{
      "name":"zhangsan",
      "city":"北京",
      "phone":"131********"
    },
    "office_info":{
      "tel":"010-1111111",
      "address":"lzl"
    }
  },
  "row_key11":{
    "personal_info":{
      "city":"上海",
      "phone":"132********"
    },
    "office_info":{
      "tel":"010-1111111" 
    }
  },
  "row_key2":{
    ...
  }
}

逻辑结构示例:

personal_info			office_info
Row Key	name	city	phone
row_key1	张三	北京	131*****
row_key11		上海	132*****
row_key2	王五	广州
row_key3		深圳	187*****
...

存储数据稀疏，数据存储多维。
不同行具有不同的列。
数据存储整体有序，按照 RowKey 的字典序排列。

HBase 物理存储结构

物理存储结构:

Row Key	Column Family	Column Qualifier	Timestamp	Type	Value
row_key1	personal_info	name	t1	Put	张三
row_key1	personal_info	city	t2	Put	北京
row_key1	personal_info	phone	t3	Put	131*****
row_key1	personal_info	phone	t4	Put	177*****

Timestamp: 不同版本（version）的数据根据 timestamp 进行区分，读取数据默认读取最新版本。
StoreFile: 物理文件。
Type: 对于删除操作，其类型为 DeleteColumn。

数据模型

Name Space: 类似于关系型数据库的 database 概念，每个命名空间下有多个表。
Table: 类似于关系型数据库的表概念，定义表时只需要声明列族即可。
Row : HBase 表中的每行数据都由一个 RowKey 和多个 Column 组成。
Column: 每个列都由 Column Family(列族)和 Column Qualifier（列限定符）限定。
Time Stamp: 用于标识数据的不同版本。
Cell: 由{rowkey, column Family：column Qualifier, timestamp} 唯一确定的单元。

HBase 基本架构

Master: 主要进程，负责监控 RegionServer 状态，管理元数据变化。
RegionServer: 负责数据 cell 的处理。
Region: 表被分割成多个 Region，由 RegionServer 管理。
Zookeeper: 用于 Master 的高可用、记录 RegionServer 的部署信息等。
HDFS: 提供底层数据存储服务和支持。

架构角色:

Master: 实现类为 HMaster，负责监控集群中的所有 RegionServer 实例。
Region Server: 实现类为 HRegionServer，负责数据 cell 的处理。
Zookeeper: HBase 通过 Zookeeper 来做 Master 的高可用、记录 RegionServer 的部署信息。
HDFS: 为 Hbase 提供最终的底层数据存储服务。